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数据 仓库 是 将 海量 数据 进行 抽取 、 清 洗 和 转换 ,并 按 主题 重新 组 织 , 可 比喻 成 随时 间 推 
移 不 断 丰 富 的 “宝藏 ”;， 数据 挖掘 是 从 海量 数据 中 发 现 人 们 感 兴 趣 的 知识 ,这 些 知识 是 隐 含 
的 、 事 先 未 知 的 潜在 有 用 信息 ,并 表示 为 概念 、 规 则 、 规 律 和 模式 等 ,可 比喻 成 “淘宝 ”。 随 着 
Internet 的 迅速 普及 和 广泛 应 用 ,每 天 都 会 产生 大 量 各 种 各 样 的 数据 ,但 它们 背后 到 底 隐藏 
着 什么 ,这 驱使 人 们 不 断 探索 其 中 的 奥秘 。 

“ 工 欲 善 其 事 , 必 先 利 其 器 "。 在 当今 信息 爆炸 的 时 代 , 数 据 挖掘 堪 比 “利器 ,让 我 们 在 
大 数据 时 代 不 再 感到 茫然 和 困惑 。 未 来 ,数据 挖掘 将 绽放 无 限 的 生机 和 活力 ,可 以 辅助 .部 
分 代替 甚至 拓展 人 的 智能 和 决策 ,以 造福 人 类 。 

数据 经 整合 汇总 为 信息 ,信息 经 挖掘 抽象 为 知识 ,知识 是 智能 的 基石 。 因 此 ,从 信息 化 
到 知识 化 再 到 智能 化 将 是 人 类 社会 发 展 的 必然 趋势 。 数 据 仓库 和 数据 挖掘 技术 已 经 逐步 渗 
透 和 深入 到 社会 生活 的 各 个 方面 ,并 不 断 催生 出 新 的 应 用 。 

本 书 介绍 数据 仓库 和 数据 挖掘 的 原理 及 其 应 用 ; 此 外 ,用 较 多 篇 幅 列 举 数据 仓库 和 数 
据 挖掘 在 多 个 领域 的 实际 应 用 。 

全 书 分 为 3 篇 。 第 1 篇 介绍 数据 仓库 的 起 源 和 演变 ,主要 阐述 数据 仓库 的 定义 、 体 系 结 
构 、 组 成 .元 数据 数据 粒度 .数据 模型 .数据 质量 及 ETL 过 程 , 描 述 数据 仓库 设计 方法 和 实 
现 过 程 , 结 合 实际 详细 阐述 如 何 构建 数据 仓库 及 其 主要 应 用 ,如 OLAP 和 OLAM。 第 2 篇 
介绍 数据 挖掘 的 起 源 和 发 展 , 主 要 阐述 数据 挖掘 和 Web 挖掘 的 主要 算法 ,包括 聚 类 、 分 类 、 
预测 和 关联 分 析 等 ,详细 描述 数据 挖掘 的 具体 应 用 实例 ,如 客户 细 分 、. 虚 开 欺 诈 识 别 和 
WAP 日 志 挖 掘 等 。 第 3 篇 阐述 数据 \ 信 息 和 知识 之 间 的 关系 ,介绍 当前 研究 热点 一 一 语义 
网 和 本 体 的 核心 技术 及 方法 。 
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第 1 章 数据 仓库 基础 


1.1 概述 


人 类 进入 信息 时 代 以 来 ,特别 是 近 些 年 ,数据 规模 日 益 扩 大 ,数据 呈 爆 炸 式 增长 。 图 灵 
奖 获得 者 吉姆 。 格 雷 曾 提出 一 个 经 验 定律 , 即 网 络 环境 下 每 18 个 月 产生 的 数据 量 等 于 有 史 
以 来 的 数据 量 之 和 ,仅仅 依靠 数据 库 管理 系统 的 查询 检索 机 制 和 统计 分 析 方法 ,已 经 远 远 不 
能 满足 实际 需求 ,面临 着 “数据 爆炸 ,知识 匮乏 ”的 严峻 挑战 。 例 如 股票 经 纪 人 需要 从 日 积 月 
累 的 大 量 股票 行情 变化 的 历史 记录 (数据 ) 中 发 现 其 规律 以 预测 未 来 的 趋势 ; 天 文学 家 需要 
从 天 文 望远镜 获取 的 观测 数据 (其 规模 可 达 数 千 GB) 中 发 现 新 的 遥远 天 体 及 其 运动 规律 
医生 需要 从 大 量 病人 的 电子 病历 中 发 现 某 种 疾病 的 起 因 、 症 状 等 。 这 些 数据 的 共同 特点 是 ， 
其 一 数据 量 巨大 ,一般 都 是 GB 乃至 TB 级 ; 其 二 均 以 结构 化 的 形式 存储 在 数据 库 中 ,包含 
了 大 量 潜在 ,有 价值 的 知识 ,有 的 已 被 发 现 ,有 的 还 未 被 发 现 。 如 何 有 效 地 管理 和 利用 这 些 
海量 数据 ? 如何 发 现 其 中 潜在 的 知识 ? 这 需要 一 种 新 的 .更 为 有 效 的 手段 对 各 种 数据 进行 
整合 并 挖掘 以 发 现 新 知识 ,更 好 地 发 挥 这 些 数据 的 潜能 。 因 此 ,数据 仓库 (Data Warehouse. 
DW) 和 数据 挖掘 (Data Mining,DM) 技 术 应 运 而 生 。 

数据 仓库 是 一 个 可 更 好 地 支持 企业 或 组 织 决策 ,面向 主题 的 .集成 的 .相对 稳定 的 、 随 时 
间 不 断 变化 的 数据 集合 ; 数据 挖掘 则 是 利用 计算 机 对 海量 数据 进行 快速 有效 地 分 析 和 处 
理 , 从 中 获取 知识 ,并 以 一 种 形式 化 的 、 可 以 理解 的 方式 表达 ,以 便于 决策 的 过 程 。 目 前 , 数 
据 仓 库 和 数据 挖掘 技术 已 经 成 为 计算 机 领域 的 研究 热点 之 一 ,引起 了 知识 发 现 、 机 器 学 习 和 
统计 分 析 等 领域 专家 的 广泛 关注 。 


1.1.1 演变 


数据 仓库 是 建立 在 传统 事务 型 数据 库 基 础 之 上 ,为 企业 决策 支持 系统 (Decision 
Support System,DSS) 及 数据 挖掘 系统 提供 数据 源 。 到 目前 为 止 ,国外 数据 仓库 已 经 发 展 
了 二 十 几 年 的 时 间 , 国 内 虽然 起 步 较 晚 ,但 发 展 较为 迅速 。 目 前 已 有 众多 的 大 型 公司 或 企业 
正在 建 或 已 经 建设 不 同 规模 的 数据 仓库 。 

传统 数据 库 ( 普 通 数据 库 ) 和 数据 仓库 的 最 根本 区 别 在 于 其 侧重 点 的 不 同 。 数 据 处 理 分 
为 两 大 类 : 事务 型 处 理 , 又 称 联机 事务 处 理 (Online Transaction Processing, OLTP); 分 析 
型 处 理 , 又 称 联机 分 析 处 理 (Online Analytical Processing,OLAP)。 事 务 型 处 理 以 传统 的 
数据 库 为 中 心 进行 企业 日 常 的 业务 处 理 ; 分 析 型 处 理 以 数据 仓库 为 中 心 分 析 数 据 背 后 的 关 
联 和 规律 ,为 企业 决策 提供 可 靠 有 效 的 科学 依据 。 事 务 型 处 理 和 分 析 型 处 理 的 分 离 , 划 清 
了 数据 处 理 的 分 析 型 环境 与 事务 型 环境 之 间 的 界限 。 从 而 由 原来 以 单一 数据 库 为 中 心 的 数 
据 环 境 演变 为 以 数据 库 为 中 心 的 事务 处 理 系 统 和 以 数据 仓库 为 基础 的 分 析 处 理 系 统 。 企 业 
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的 生产 环境 也 从 以 数据 库 为 中 心 发 展 为 以 数据 库 和 数据 仓库 为 中 心 。 因 此 ,在 事务 处 理 环 
境 中 直接 构建 分 析 处 理应 用 是 不 适合 的 ,要 提高 分 析 和 决策 的 效率 和 有 效 性 ,分 析 型 处 理 及 
其 数据 必须 与 操作 型 处 理 及 其 数据 相 分 离 ,必须 把 分 析 型 数据 从 事务 处 理 环境 中 提取 出 来 ， 
按照 决策 支持 的 需要 重新 组 织 , 建 立 相 对 独立 的 分 析 处 理 环 境 , 数 据 仓 库 正 是 为 了 构建 这 种 
新 的 分 析 处 理 环境 而 出 现 的 一 种 数据 存储 和 组 织 技术 。 

传统 数据 库 的 主要 任务 是 进行 事务 处 理 , 所 关注 的 是 事务 处 理 的 及 时 性 、 完 整 性 和 正确 
性 ,而 在 数据 分 析 方 面 , 则 存在 诸多 不 足 ,主要 体现 在 缺乏 集成 性 、 主 体 不 明确 和 分 析 处 理 效 
率 低 等 多 个 方面 。 

1. 缺乏 集成 性 

首先 ,企业 数据 库 系 统 与 部 门 条 块 分 割 , 导 致 数据 分 布 分 散 化 与 无 序 化。 在 一 个 企业 内 
部 ,生产 ,销售 和 财务 等 部 门 往往 各 自 使 用 一 套 满 足 自身 工作 需要 的 应 用 程序 。 各 个 部 门 的 
应 用 系统 往往 不 能 共享 数据 ,缺乏 数据 的 统一 管理 和 维护 。 尽 管 企 业内 部 拥有 的 数据 量 庞 
大 ,但 各 自封 闭 , 构 成 相互 独立 的 所 谓 “ 信 息 孤 岛 群 ”, 无 法 形成 统一 体 。 其 次 ,业务 数据 库 缺 
乏 统一 的 定义 与 口径 ,导致 数据 定义 存在 歧义 。 

2. 主题 不 明确 

建立 传统 数据 库 的 目的 是 为 了 满足 事务 处 理 的 需要 ,数据 库 和 表 的 定义 与 设计 完全 以 
此 为 基础 。 而 对 于 数据 分 析 而 言 ,这 些 库 和 表 无 疑 缺 少 明确 的 主题 。 

3. 分 析 处 理 效率 低 

设计 基于 传统 数据 库 的 应 用 系统 的 核心 准则 是 保证 事务 处 理 及 时 而 准确 。 显 然 , 处 理 
大 量 分 析 型 数据 的 效率 得 不 到 保证 。 

数据 仓库 是 因为 用 户 需求 增加 而 对 某 一 类 数据 库 应 用 范围 的 界定 。 仅 从 数据 存储 容器 
的 角度 而 言 ,数据 仓库 与 数据 库 并 没有 本 质 的 区 别 。 且 在 很 多 时 候 ,数据 仓库 是 被 作为 一 个 
数据 库 应 用 系统 来 看 待 的 。 因 此 ,不 应 该 说 数据 库 到 数据 仓库 是 技术 的 进步 。 

一 般 地 ,数据 仓库 是 在 传统 数据 库 的 基础 上 发 展 起 来 的 ,建立 在 异 构 业 务 数据 库 的 基础 
上 。 尽 管 传统 数据 库 对 处 理 分 析 型 数据 存在 缺陷 ,但 数据 仓库 并 不 是 对 数据 库 的 彻底 抛弃 。 
两 者 存在 诸多 差别 ,如 表 1.1 所 示 。 


表 1.1 数据 库 与 数据 仓库 的 区 别 


数 据 库 数据 仓库 
内 容 与 业务 相关 的 数据 与 决策 相关 的 数据 
数据 模型 | 关系 、 层 次 结构 关系 、 多 维 结构 
访问 经 常 是 随机 地 读 、 写 操作 经 常 是 只 读 操作 
负载 事务 处 理 量 大 ,但 每 个 事务 涉及 的 记录 数 很 少 | 查询 量 小 ,但 每 次 需要 查询 大 量 的 记录 
事务 输出 | 一 般 很 少 可 能 非常 大 
停机 可 能 意味 着 灾难 性 错误 可 能 意味 着 决策 延迟 


从 数据 库 到 数据 仓库 的 演变 过 程 如 图 1. 1 所 示 。 


数据 收集 和 数据 库 创建 
(20 世 纪 60 年 代 及 更 早 ) 
原始 文件 处 理 


数据 库 管理 系统 
(20 世 纪 70 年 代 ) 
。 层次 和 网 状 数据 库 
。 关系 数据 库 双 
。 数据 建 模 工具 : 实体 -关系 模型 
。 索 引 和 数据 组 织 技术 : B+ 树 ， 散 列 等 
* 查询 语言 : SQL 等 
。 用 户 界面 : 表单 、 报 告 和 
e 查询 处 理 和 优化 


。 事 务 管理 : 恢复 和 并 发 控制 竺 
。 联 机 事务 处 理 (OLTP) 
BARRERA 
级 数据 库 系 基于 Web 的 数据 库 系统 
CORE FRENNEN CoHtE90 年 代 下 人 ) 
。 高 级 数据 模型 
扩充 关系 、 面 向 对 象 、 。 基 于 XML 的 数据 库 系统 
对 象 -关系 、 演 绎 “Web 控 所 
。 面 向 应 用 
空间 的 、 时 间 的 、 多 媒体 
的 、 主 动 的 、 科 学 的 知识 库 
数据 仓库 和 数据 挖 气 


(20 世 纪 80 年 代 后 期 至 今 ) 


。 数 据 仓库 和 OLAP 技 术 
。 数 据 挖 据 和 知识 发 现 


| 


新 一 代 综 合 信息 系统 
(2000 年 至 今 ) 


图 1.1 数据 库 到 数据 仓库 的 演变 过 程 


1.1.2 Æ% 


数据 仓库 的 概念 最 早出 现在 20 世纪 80 4E fX. 1993 年 ,被 称 为 “数据 仓库 之 父 ” 的 
William H. Inmon 首次 系统 地 阐述 了 数据 仓库 定义 , 即 一 个 面向 主题 的 、 集 成 的 .不 可 修改 
的 且 随时 间 变 化 的 数据 集合 ,以 支持 管理 人 员 的 决策 。 

面向 主题 是 相对 于 传统 数据 库 的 面向 应 用 而 言 。 所 谓 面向 应 用 ,是 指 系统 实现 过 程 中 
主要 围绕 着 一 些 应 用 或 功能 ,而 面向 主题 则 是 考虑 一 个 个 的 问题 域 ,对 问题 域 涉及 的 数据 和 
分 析 数 据 所 采用 的 功能 给 予 同样 的 重视 。 

数据 仓库 是 面向 在 数据 模型 中 已 定义 业务 的 主要 主题 域 的 ,例如 在 电信 和 领域 中 典型 的 
主题 域 包括 客户 产品. 资源、 渠道 .服务 和 竞争 等 。 
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集成 是 指数 据 仓库 中 的 数据 来 自 不 同 的 数据 源 。 由 于 历史 的 原因 ,各 数据 源 的 组 织 结 
构 往 往 不 同 , 在 这 些 异 构 的 数据 导入 到 数据 仓库 之 前 , 需 经 历 一 个 集成 过 程 。 在 数据 仓库 的 
所 有 特点 中 ,这 是 最 重要 的 。 应 用 系统 的 设计 人 员 历 经 多 年 制定 出 来 的 不 同 的 设计 策略 有 
很 多 种 不 同 的 表示 方法 ,在 编码 、 命 名 习惯 、. 属 性 和 属性 度量 等 方面 往往 是 不 一 致 的 。 当 数 
据 导 入 数据 仓库 时 ,需要 采用 某 种 方法 来 消除 应 用 系统 中 存在 的 不 一 致 性 。 例 如 “客户 性 
别 ?的 编码 ,在 数据 仓库 中 是 编码 为 “ 男 / 女 ”还 是 “my/f? 并 不 重要 ,重要 的 是 无 论 是 什么 原始 
应 用 系统 ,在 数据 仓库 中 应 该 编码 一 致 。 如 果 应 用 系统 中 编码 为 "X/Y”, 则 在 其 导入 数据 仓 
库 时 就 应 进行 转换 。 对 所 有 的 应 用 都 要 考虑 一 致 性 ,如 命名 习惯 \ 键 码 结构 、 属 性 度量 以 及 
数据 特点 等 。 

不 可 修改 是 指 与 面向 应 用 的 事务 数据 库 需 要 对 数据 进行 频繁 地 插入 、 更 新 操作 不 同 的 
是 ,数据 仓库 中 对 数据 的 操作 仅 限于 数据 的 初始 导入 和 查询 。 操 作 型 数据 一 般 是 一 次 访问 
和 处 理 一 条 记录 ,也 可 以 对 操作 型 数据 进行 更 新 。 但 数据 仓库 中 的 数据 则 不 然 ,通常 是 一 起 
载 人 与 访问 ,在 数据 仓库 中 并 不 进行 一 般 意 义 上 的 数据 更 新 。 

随时 间 变 化 是 指数 据 仓 库 以 维 的 形式 对 数据 进行 组 织 , 时 间 维 是 数据 仓库 中 很 重要 的 
一 个 维度 ,并且 数 据 仓库 中 数据 的 时 间 跨 度 较 大 ,从 几 年 甚至 到 几 十 年 , 称 为 历史 数据 。 数 
据 仓 库 中 数据 随时 间 变 化 的 特性 表现 在 以 下 几 个 方面 : 

。 数据 仓库 中 数据 的 时 间 期 限 要 远 远 长 于 操作 型 数据 库 中 数据 的 时 间 期 限 。 操 作 型 数据 

库 中 数据 的 时 间 期 限 一 般 是 60 一 90 天 ,而 数据 仓库 中 数据 的 时 间 期 限 通常 是 5 一 10 年 。 
。 操作 型 数据 库 含有 “当前 值 ” 的 数据 ,这 些 数 据 的 准确 性 在 访问 时 是 有 效 的 ,同样 当前 
值 的 数据 可 被 更 新 。 而 数据 仓库 中 的 数据 仅仅 是 一 系列 某 一 时 刻 生成 的 复杂 快照 。 
。 操作 型 数据 的 键 码 结构 可 能 包含 也 可 能 不 包含 时 间 元 素 , 如 年 .月 和 日 等 ,而 数据 仓 

库 的 键 码 结构 总 是 包含 某 一 时 间 元 素 。 

数据 仓库 是 DSS 的 基础 。 因 为 ,在 数据 仓库 中 只 有 单一 集成 的 数据 源 , 并 且 数 据 是 可 

访问 的 。 所 以 与 传统 数据 库 相 比 ,在 数据 仓库 中 DSS 分 析 人 员 的 工作 将 容易 得 多 。 


1.2 体系 结构 


1.2.1 两 层 的 体系 结构 


由 数据 仓库 的 定义 可 知 , 它 是 将 企业 各 个 业务 系统 中 与 分 析 有 关 的 数据 集成 在 一 起 , 同 
时 数据 仓库 面向 的 应 用 是 分 析 型 操作 ,因此 形成 了 DB-DW 两 层 数据 仓库 体系 结构 , 如 
图 1.2 所 示 。 

其 中 ,业务 系统 作为 主要 的 分 析 数 据 来 源 , 其 数据 格式 主要 是 表 的 形式 。 实 际 中 ,由 于 
要 保证 业务 系统 的 正常 运行 ,一 般 不 直接 在 业务 系统 中 进行 数据 的 查询 和 抽取 ,而 是 采取 备 
份 库 或 者 文件 传输 的 方式 进行 数据 仓库 的 数据 抽取 。 外 部 数据 源 是 指数 据 来 源 于 企业 的 外 
部 ,描述 企业 运营 的 外 部 环境 与 企业 经 营 分 析 有 关 的 数据 ,如 各 个 企业 的 市 场 份额 等 ,外 部 
数据 作为 经 营 分 析 的 补充 ,对 企业 经 营 决 策 的 正确 性 起 着 十 分 重要 的 作用 ,因此 应 保证 外 部 
数据 的 实时 性 和 准确 性 。 外 部 数据 源 具 有 多 样 性 的 特点 ,如 年 报 等 都 可 以 作为 外 部 数据 源 ， 
同时 外 部 数据 源 的 格式 也 不 统一 ,如 文本 表格 和 图 像 等 。 因 此 对 外 部 数据 源 及 其 数据 格式 


数据 挖掘/ 数据 展现 系统 


数据 数据 | | 数据 数据 
集 市 集 市 | | 集 市 集 市 
数据 仓库 存储 
数据 元 数据 
fests 


数据 暂 存 区 


$ 


业务 系统 数据 。 外 部 数据 
图 1.2 DB-DW 两 层 体系 结构 


等 都 要 在 数据 仓库 的 元 数据 中 进行 记录 ,同时 元 数据 中 还 应 对 外 部 数据 的 可 信 程度 有 一 定 
评价 。 

由 于 数据 仓库 中 的 数据 源 不 统一 ,同时 源 数据 的 存储 形式 也 不 相同 ,因此 有 必要 在 数据 
进入 数据 仓库 前 先 将 数据 存放 在 一 个 统一 的 暂 存 区 中 ,引入 数据 暂 存 区 的 主要 作用 在 于 : 

* 统一 不 同 数据 源 的 数据 格式 ,将 不 同 数据 源 中 不 同 的 数据 格式 转换 成 统一 的 数据 格 
式 , 供 数据 仓库 统一 处 理 。 
进行 数据 的 初步 检查 ,在 数据 进入 数据 仓库 之 前 , 先 对 数据 进行 初步 检查 ,鉴于 不 影 
响 数 据 仓库 的 处 理 时 间 , 这 里 的 检查 将 仅 涉及 比较 粗略 的 数据 检查 ,如 记录 数量 、 关 
键 字 段 是 否 丢失 等 ,对 于 错误 的 数据 暂 不 导入 数据 仓库 ,这 样 对 进入 数据 仓库 的 数 
据 质量 有 一 定 的 保证 ,但 是 更 复杂 的 数据 清洁 工作 ,如 字段 格式 的 统一 以 及 数据 内 
容 的 清洗 这 种 单一 记录 级 的 处 理工 作 则 应 该 在 数据 抽取 时 完成 。 

数据 暂 存 区 可 以 多 种 存储 形式 实现 ,如 文件 目录 或 者 数据 库 表 。 

数据 仓库 中 保存 了 大 量 的 历史 数据 ,同时 数据 仓库 面向 的 是 整个 企业 的 分 析 应 用 ,但 在 
实际 应 用 中 不 同 部 门 的 用 户 可 能 只 使 用 其 中 的 一 部 分 数据 ,从 处 理 速度 和 效率 的 角度 出 发 ， 
可 以 将 这 部 分 数据 在 逻辑 或 物理 上 进行 分 离 , 使 用 户 无 须 到 数据 仓库 的 海量 数据 中 查询 ,只 
在 与 本 部 门 有 关 的 数据 子 集 上 操作 ,这样 就 形成 了 数据 集 市 (Data Mar 的 概念 , 它 是 指 面 
向 企业 中 的 某 个 部 门 (主题 ) 在 逻辑 上 或 物理 上 划分 出 来 的 数据 仓库 的 数据 子 集 。 将 数据 仓 
库 按照 数据 的 应 用 划分 为 多 个 数据 集 市 ,有 利于 数据 仓库 的 负载 均衡 ,保证 应 用 的 执行 效 
率 。 同 时 ,由 于 数据 集 市 具有 统一 的 数据 来 源 一 一 数据 仓库 ,遵循 统一 的 数据 模型 ,保证 了 
各 个 不 同 数据 集 市 中 数据 的 统一 。 

可 以 看 出 DB-DW 两 层 的 数据 仓库 体系 结构 是 一 种 管道 过 滤器 的 结构 ,数据 从 数据 源 
进入 数据 仓库 到 展示 给 最 终 用 户 ,都 有 一 定 的 关联 关系 ,因此 要 保证 数据 仓库 中 数据 处 理 的 
合理 调度 , 则 需要 通过 数据 仓库 的 元 数据 完成 。 
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1.2.2 三 层 的 体系 结构 


数据 仓库 的 提出 使 得 操作 型 处 理 和 分 析 型 处 理 得 以 分 离 , 从 而 形成 了 DB-DW 两 层 的 
体系 结构 ,但 是 在 企业 的 业务 处 理 中 存在 介 于 操作 型 和 分 析 型 之 间 的 需求 ,需要 对 短期 的 历 
史 数 据 进 行 分 析 ,同时 要 求 较 快 的 响应 速度 ,这 种 分 析 无 法 在 操作 型 数据 库 中 完成 ,因为 其 
保存 的 是 数据 的 瞬 态 信息 ,但 是 如 果 通 过 数据 仓库 完成 ,由 于 数据 仓库 保存 了 大 量 的 历史 数 
据 , 在 响应 时 间 上 无 法 满足 要 求 ,因此 提出 了 操作 型 数据 存储 (Operational Data Store， 
ODS) 的 概念 ,ODS 数据 可 以 概括 为 面向 主题 的 、 集 成 的 、 可 变 的 和 当前 的 或 接近 当前 的 数 
据 。 其 中 ,面向 主题 和 集成 的 特点 与 数据 仓库 的 概念 相似 ;“ 可 变 的 ”是 指 ODS 数据 可 以 联 
机 改变 ,包括 增加 、 删 除 和 更 新 等 操作 ;“ 当 前 的 ”是 指数 据 在 存 取 时 刻 是 最 新 的 ; 而 “接近 
当前 ?是 指 存 取 的 数据 是 最 近 一 段 时 间 得 到 的 。 
面向 主题 和 集成 的 特点 使 得 ODS 数据 在 静态 特征 上 很 接近 数据 仓库 的 数据 ,但 是 
ODS 和 数据 仓库 之 间 存 在 重要 的 差别 ,主要 体现 在 : 
。 数据 的 内 容 不 同 。 数 据 仓 库 中 历史 数据 是 指 长 期 保存 并 可 重复 查询 的 数据 , 既 保 存 
细节 数据 ,也 保存 综合 数据 。 而 ODS 一 般 只 保存 细节 数据 ,而 且 ODS 数据 是 可 以 
更 新 的 , 即 变化 的 ,ODS 中 保存 的 历史 数据 也 是 近期 的 。 

。 数据 量 不 同 ,ODS 保存 的 数据 量 要 远 远 小 于 数据 仓库 的 数据 量 。 

。 面向 的 应 用 不 同 。 数 据 仓 库 用 于 长 期 的 趋势 分 析 或 决策 支持 ,而 ODS 主要 支持 企 
业 的 全 局 OLTP 和 即时 (Cup to the second) 决 策 分 析 应 用 。 

引入 ODS 后 ,原来 的 DB-DW 两 层 体系 结构 将 被 扩展 为 DB-ODS-DW 三 层 体系 结构 ， 
如 图 1.3 所 示 。 
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业务 系统 数据 外 部 数据 
图 1.3 DB-ODS-DW 三 层 体系 结构 


在 DB-ODS-DW 三 层 的 体系 结构 中 ,ODS 的 作用 可 以 概括 为 : 

。 为 数据 仓库 提供 数据 ,减少 数据 仓库 数据 抽取 的 复杂 性 。 由 ODS 的 定义 可 知 , 它 具 
有 面向 主题 和 集成 两 个 特点 ,因此 来 自 业 务 系统 的 源 数据 首先 进入 ODS, 在 进入 
ODS 时 完成 数据 清洁 和 集成 的 工作 ,这 样 再 向 数据 仓库 提供 的 数据 就 是 清洁 的 和 
统一 的 ,减轻 了 数据 仓库 中 数据 抽取 的 工作 。 

。 即时 的 OLAP 分 析 。 由 于 在 业务 系统 中 需要 对 近期 或 当前 的 数据 进行 分 析 ,如 果 该 
应 用 放 在 数据 仓库 中 完成 ,由 于 数据 仓库 相应 的 处 理 环节 较 多 ,同时 数据 仓库 保存 
了 大 量 的 历史 数据 ,如 果 要 完成 这 些 需求 势必 造成 留 给 数据 仓库 的 数据 处 理 时 间 减 
少 , 不 利于 数据 仓库 的 建设 ,所 以 将 这 部 分 任务 分 配给 ODS, 由 于 ODS 保存 了 近期 
的 数据 ,可 以 完成 用 户 的 即时 分 析 需 求 。 

。 全 局 的 OLTP 操作 。 由 于 ODS 数据 的 集成 性 ,整合 了 企业 中 不 同业 务 系统 的 数据 ， 
同时 ODS 数据 是 可 更 新 的 ,因此 ODS 可 以 提供 面向 企业 全 局 的 OLTP 操作 。 


1.3 组 成 


数据 仓库 的 大 小 一 般 都 是 在 100GB 以 上 。 传 统 的 关系 型 数据 库 是 针对 OLTP 的 ,并 不 
适用 于 数据 量 大 且 复 杂 度 高 的 数据 仓库 。 因 此 ,数据 仓库 系统 必须 能 够 满足 : 

。 扩充 数据 仓库 的 数据 。 

。 每 日 对 数据 仓库 系统 的 管理 和 维护 。 

。 允许 用 户 增加 需求 。 

要 充分 满足 上 述 三 点 并 不 容易 ,尤其 是 数据 仓库 最 终 以 自动 的 数据 分 析 处 理 为 目标 。 
扩充 数据 仓库 数据 是 非常 重要 的 ,其 重点 是 抽取 、 整 理 并 转换 数据 以 及 以 适当 的 方式 展现 给 
用 户 分 析 使 用 。 数 据 仓库 并 不 是 一 个 只 读 系统 ,虽然 说 事实 数据 导入 数据 仓库 之 后 就 不 会 
再 更 新 ,但 是 如 果 用 户 需求 改变 ,例如 希望 以 不 同 的 方式 浏览 相同 的 分 析 结 果 , 则 仍然 会 修 
订 索 引 数据 。 每 日 对 数据 仓库 系统 的 管理 和 维护 与 传统 的 OLTP 系统 完全 不 同 , 因 为 数据 
仓库 的 数据 量 远 比 OLTP 系统 大 得 多 ,所 以 需要 更 积极 的 管理 方式 。 例 如 添加 或 删除 数 
据 、 将 数据 仓库 数据 存 和 人 备 存 介质 、 由 备 存 介质 加 载 数 据 等 。 因 此 可 以 这 样 理解 ,数据 仓库 
是 一 个 持续 更 新 的 系统 ,以 满足 用 户 新 的 决策 需求 。 允 许 用 户 增 加 需求 的 能 力 似 乎 是 设计 
数据 仓库 系统 时 最 困难 的 工作 ,因为 每 个 用 户 都 有 各 种 不 同 的 需求 。 数 据 仓库 除了 能 够 允 
许 更 新 现 有 的 需求 之 外 ,还 应 该 可 以 增加 新 的 分 析 主 题 。 

数据 仓库 系统 应 该 具有 以 下 功能 : 

。 抽取 数据 与 加 载 数据 。 

。 整理 并 转换 数据 为 数据 仓库 适用 的 格式 。 

。 备份 与 备 存 数据 。 

。 管理 所 有 的 查询 ,将 它们 导向 适当 的 数据 源 。 

数据 仓库 系统 的 组 成 如 图 1.4 所 示 , 其 中 包括 数据 、 信 息 和 知识 三 个 层次 。 

具体 来 说 ,数据 仓库 系统 的 管理 器 可 细 分 为 三 种 , 即 : 

。 加 载 管 理 器 ,负责 抽取 并 加 载 数据 ,在 加 载 数据 之 前 与 过 程 中 执行 简单 的 转换 。 


Ekme M-e 


bel 


Bs e EO USUS 
原理 及 应 用 (第 二 版 ) 


一 知识 


Tu 


£ 
Sum 数据 查询 


外 部 数据 


zR 
ERYS 


FER 
e 

E 
Xu 


ol 


H 


AP 工具 
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1.4 数据 仓库 系统 的 组 成 


。 仓库 管理 器 ,负责 转换 并 管理 数据 仓库 数据 、 备 份 与 备 存 数据 。 
。 查询 管理 器 ,负责 引导 并 管理 数据 仓库 的 查询 。 


1.3.1 加 载 管理 器 


加 载 管理 器 主要 是 支持 数据 抽取 和 加 载 , 可 以 由 一 些 外 购 的 软件 工具 .针对 特殊 需要 而 
编写 的 程序 .存储 过 程 以 及 脚本 文件 组 成 。 用 户 可 以 尽量 选用 适合 的 软件 工具 来 协助 进行 
整个 加 载 管理 工作 ,但 是 因为 加 载 管理 器 是 每 个 数据 仓库 中 功能 最 无 法 正规 化 的 部 分 ,会 因 
原始 数据 的 特性 而 存在 很 大 差异 ,所 以 不 可 能 完全 使 用 外 购 的 软件 工具 ,必须 自行 编写 针对 
特殊 需要 的 程序 .存储 过 程 或 脚本 文件 。 

加 载 管理 器 应 该 具有 以 下 功能 : 

。 自 源 系 统 抽取 数据 。 

。 将 抽取 的 数据 快速 加 载 到 临时 存储 介质 。 

。 执 行 简单 的 数据 转换 。 

。 将 转换 后 的 数据 加 载 至 与 数据 仓库 类 似 的 数据 结构 之 中 。 

加 载 管理 器 的 构成 如 图 1. 5 所 示 。 
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1.5 加 载 管理 器 的 构成 
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上 述 所 有 功能 都 应 该 自动 执行 ,至 于 数据 错误 的 修正 ,也 应 该 尽量 避免 人 工 介入 。 

每 一 种 关系 数据 库 产品 都 会 提供 数据 快速 加 载 工具 ,至 于 数据 复制 管理 工具 则 会 提 
供 某 种 程度 的 转换 功能 。 如 果 数 据 源 需 要 比较 复杂 的 转换 ,可 以 使 用 C/C++ 或 存储 过 程 
编写 转换 程序 ,至 于 工作 控制 流程 则 可 以 使 用 操作 系统 提供 的 功能 或 编写 控制 用 的 脚本 
Xt. 

因为 数据 仓库 拥有 的 数据 量 非常 庞大 ,所 以 需要 快速 的 加 载 工 具 。 一 般 而 言 ,可 以 将 原 
始 数 据 先 加 载 到 关系 数据 库 , 然 后 再 进行 数据 校 验 。 

当 原 始 数据 已 经 导入 临时 存储 介质 后 ,可 以 利用 数据 库 本 身 的 功能 与 外 购 的 软件 工具 
进行 简单 的 转换 ,这 些 转 换 不 包括 复杂 的 逻辑 运算 也 不 会 使 用 到 关联 操作 。 当 简单 的 数据 
转换 执行 完毕 ,可 以 使 用 自行 设计 的 软件 工具 进行 与 数据 仓库 相关 以 及 较 复 杂 的 转换 。 下 
面 列 出 了 一 些 可 以 在 本 阶段 执行 的 数据 转换 与 校 验 功能 : 

* 删除 在 数据 仓库 中 不 必要 的 字段 。 

* 将 所 有 的 数值 转换 为 所 需 的 数据 类 型 。 

* 将 每 个 字段 转换 为 正确 的 格式 (例如 大 写字 母 , 删 除 前 置 空格 符 等 ) 。 

。 根据 企业 需求 校 验 字段 值 是 否 有 效 。 

”检验 数据 仓库 所 需 字 段 是 否 有 数据 。 


1.3.2 仓库 管理 器 
仓库 管理 器 执行 管理 一 个 数据 仓库 所 有 的 必要 程序 ,可 以 由 一 些 外 购 的 系统 管理 工具 、 


针对 特殊 需要 而 编写 的 程序 以 及 脚本 文件 组 成 ,仓库 管理 器 的 复杂 度 会 因 自 动 化 的 程度 而 
异 。 仓 库 管理 器 的 构成 如 图 1. 6 所 示 。 
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图 1.6 仓库 管理 器 的 构成 


仓库 管理 器 将 执行 以 下 功能 : 

。 检验 各 字段 相互 之 间 的 关系 与 一 致 性 。 

”将 临时 存储 介质 中 的 数据 进行 转换 与 合并 ,然后 加 载 到 数据 仓库 。 
。 对 数据 仓库 数据 添加 索引 、 视 图 和 分 区 。 
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"根据 需要 将 数据 进行 正规 化 。 

”根据 需要 生成 新 的 集合 信息 。 

。 更 新 已 有 的 集合 信息 。 

* 备份 数据 仓库 (完整 或 递增 式 ) 。 

。 备 存 数据 仓库 中 过 时 的 数据 ( 移 存 至 其 他 存储 介质 ) 。 

用 户 可 以 使 用 C/C++ 或 存储 过 程 将 数据 导入 到 数据 仓库 ,添加 索引 、 视 图 和 数据 分 区 ， 
生成 星 型 .雪花 型 数据 模式 ,生成 、 更 新 集合 信息 ; 可 以 使 用 操作 系统 与 数据 库 管 理 系 统 提 
供 的 工具 备份 数据 仓库 、 备 存 过 时 数据 ; 也 可 以 使 用 数据 仓库 系统 提供 的 分 析 工 具 分 析 查 
询 概述 文件 。 

在 数据 仓库 中 可 以 将 数据 分 为 若干 个 数据 分 区 ,以 便于 管理 。 用 户 可 以 根据 数据 仓库 
中 数据 的 更 新 频率 创建 数据 分 区 ,如 果 数 据 仓库 周期 以 季度 为 单位 , 则 可 以 在 每 一 季度 结束 
后 将 加 入 的 历史 数据 创建 成 以 季度 为 单位 的 数据 分 区 ,而 且 可 以 定期 将 小 的 数据 分 区 并 入 
大 的 数据 分 区 中 。 

将 原始 数据 整理 、 检 验 完毕 后 ,仓库 管理 器 会 把 数据 转换 为 一 种 适用 于 查询 管理 决策 信 
息 的 数据 结构 。 

数据 仓库 的 数据 是 由 事实 数据 和 维度 数据 组 成 的 ,事实 数据 是 能 够 反映 过 去 事实 的 数 
据 , 而 维度 数据 则 是 为 了 使 查询 更 加 快速 而 创建 的 索引 数据 。 就 数据 仓库 的 数据 结构 而 言 ， 
是 以 事实 表 为 中 心 , 各 个 维 表 位 于 四 周 而 形 成 的 一 个 星 型 模式 。 为 了 便于 快速 查询 ,仓库 管 
理 器 会 为 事实 表 和 维 表 创建 索引 。 事 实 表 拥有 非常 多 的 记录 , 当 索 引文 件 大 到 一 定 程 度 时 ， 
将 索引 以 一 笔 一 笔 的 方式 添加 至 已 有 的 索引 中 ,不 见得 是 一 种 好 方法 。 如 果 事 实 表 包含 了 
很 多 记录 ,建议 先 删除 现 有 的 索引 ,然后 再 重新 创建 索引 ,这 样 运行 效率 会 较 高 。 维 表 的 数 
据 量 虽然 也 不 小 ,但 是 比 起 事实 表 还 是 小 得 多 。 一 般 而 言 , 维 表 不 会 做 太 多 的 更 新 ,除非 是 
维 表 整 个 更 新 ,一般 不 需要 删除 维度 数据 再 重新 创建 索引 。 出 于 管理 方面 的 考虑 ,可 以 将 事 
实数 据 分 为 多 个 数据 分 区 ,但 是 对 用 户 而 言 ,数据 分 区 则 是 完全 透明 的 。 为 了 使 用 户 看 到 的 
是 一 个 独立 完整 的 事实 表 ,仓库 管理 器 创建 一 些 视图 将 整个 数据 分 区 合并 为 一 个 单 表 。 

如 果 数 据 仓库 周期 以 季度 为 单位 ,可 以 考虑 创建 以 下 视图 : 

。 为 上 半年 创建 一 个 视图 。 

。 为 当年 创建 一 个 视图 。 

。 为 上 一 年 创建 一 个 视图 。 

创建 视图 将 降低 查询 的 运行 效率 ,所 以 建议 在 一 个 视图 中 不 要 包含 过 多 的 数据 分 区 ,而 
且 不 要 创建 多 层 视 图 。 只 要 不 创建 包含 过 多 数据 分 区 的 视图 ,系统 就 可 以 自行 消化 掉 这 些 
工作 的 开销 。 当 数据 已 经 完全 加 载 了 数据 仓库 的 星 型 .雪花 型 模式 之 后 ,仓库 管理 器 将 创建 
一 系列 的 集合 ,以 加 快 常用 的 一 般 性 查询 的 运行 速度 。 因 为 每 个 查询 都 是 在 抽取 某 一 维度 
的 一 个 部 分 数据 集合 ,所 以 仓库 管理 器 会 以 此 为 基础 决定 要 计算 哪些 集合 信息 。 例 如 上 一 
季度 的 销售 量 、 某 一 部 门 的 销售 量 、 上 半年 整个 公司 的 销售 量 。 

仓库 管理 器 的 重要 任务 之 一 是 管理 查询 概述 文件 ,为 了 统计 数据 仓库 系统 内 常用 的 查 
询 , 查 询 管理 器 搜集 所 有 的 查询 并 加 以 统计 分 析 , 归 纳 出 为 哪些 常用 的 查询 创建 集合 信息 。 

查询 概述 文件 在 数据 仓库 中 是 一 种 元 数据 ,主要 描述 一 个 数据 仓库 中 所 有 查询 的 特性 。 
当 用 户 更 新 了 其 需求 之 后 ,仓库 管理 器 将 更 新 对 应 的 查询 概述 文件 ,然后 重新 生成 新 的 集合 


信息 。 可 以 使 用 存储 过 程 或 嵌入 式 C 编写 计算 集合 信息 的 应 用 程序 。 

一 般 的 数据 库 管理 系统 都 会 提供 搜集 查询 的 功能 , 当 仓库 管理 器 由 查询 管理 器 搜集 到 
足够 多 的 统计 信息 时 ,可 以 下 面 的 方式 执行 集合 信息 的 计算 工作 : 

"将 SQL 查询 转换 为 星 型 的 查询 。 

。 分 析 星 型 查询 ,检查 使 用 到 哪些 事实 数据 、 维 度数 据 和 集合 信息 。 

。 决定 集合 信息 的 使 用 频率 (有 多 少 个 查询 使 用 一 项 集合 信息 ) 。 

。 检 查 目前 的 查询 概述 文件 中 是 否 已 包含 该 项 集合 信息 。 

。 如 果 查 询 概述 文件 尚未 包含 该 项 集合 信息 , 则 将 其 定义 加 入 。 

。 定期 检验 不 再 适用 的 集合 信息 ,并 将 其 定义 从 查询 概述 文件 中 删除 。 

。 定 期 根据 修正 过 的 查询 概述 文件 重新 创建 新 的 集合 信息 。 

当然 ,仓库 管理 器 不 一 定 需要 为 查询 概述 文件 中 所 有 的 项 目 创建 集合 信息 ,因为 创建 集 
合 信息 需要 占用 系统 资源 。 如 果 数 据 仓 库 系统 的 资源 有 限 , 可 以 根据 每 项 的 使 用 频率 设置 
优先 级 ,从 而 仅 为 某 些 优先 级 足够 高 的 项 目 计 算 集合 信息 。 


1.3.3 查询 管理 器 


查询 管理 器 执行 管理 数据 仓库 系统 中 所 有 查询 的 相关 处 理 程序 ,可 以 由 一 些 外 购 的 
存 取 工 具 .数据 仓库 系统 所 提供 的 系统 监控 工具 数据 库 管理 系统 所 提供 的 管理 工具 、 针 
对 特殊 需要 编写 的 程序 以 及 脚本 文件 组 成 。 同 样 地 ,查询 管理 器 的 复杂 度 视 数据 仓库 系 
统 而 定 。 

查询 管理 器 的 构成 如 图 1.7 所 示 。 
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图 1.7 查询 管理 器 的 构成 
查询 管理 器 主要 执行 以 下 功能 : 


。 将 查询 引导 至 正确 的 表 。 

。 为 所 有 的 用 户 查询 调度 。 

可 以 使 用 用 户 存 取 工 具 、 存 储 过 程 .C/C++ 程序 将 查询 引导 至 正确 的 表 ; 也 可 以 使 用 用 
户 存 取 工 具 、 存 储 过 程 .C/C++ 程序 数据 库 管理 系统 提供 的 管理 工具 、 外 购 的 调度 软件 为 所 
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有 用 户 的 查询 进行 调度 。 
查询 管理 器 将 查询 统计 分 析 的 结果 存 人 查询 概述 文件 , 供 仓库 管理 器 使 用 ,以 决定 为 哪 
些 项 目 执行 数据 集合 的 任务 。 


1.4 元 数据 
1.4.1 定义 和 分 类 


元 数据 (Metadata) 是 关于 数据 的 数据 。 在 数据 仓库 系统 中 ,元 数据 可 以 帮助 数据 仓库 
管理 员 和 数据 仓库 开发 人 员 非 常 方便 地 找到 他 们 所 需 的 数据 ; 元 数据 是 描述 数据 仓库 中 数 
据 结构 和 构建 方法 的 数据 。 

随 着 计算 机 技术 的 应 用 日 益 广泛 ,元 数据 得 到 人 们 越 来 越 多 的 关注 ,这 是 由 多 方面 的 需 
求 决 定 的 。 

其 一 是 管理 数据 的 需求 。 当 系统 数据 量 越 来 越 大 时 ,检索 和 使 用 这 些 数据 的 效率 就 会 
降低 ,通过 存储 关于 系统 和 数据 的 内 容 、 组 织 、 特 性 等 细节 可 以 帮助 有 效 地 管理 ,从 而 提高 
效率 。 

其 二 是 系统 分 布 互 通 和 重用 的 要 求 。 目 前 信息 系统 一 个 共同 的 趋势 是 信息 共享 ,要 实 
现 异 构 系统 的 信息 共享 , 则 需要 描述 数据 语义 以 及 软件 开发 过 程 的 元 数据 ,而 且 这 些 元 数据 
必须 标准 化 ,以 充分 实现 分 布 . 互 通 和 重用 。 

其 三 是 元 数据 重用 、 综 合 的 需求 。 目 前 ,很 少 有 单一 工具 能 满足 大 型 商业 应 用 的 需求 ， 
用 户 常常 需要 使 用 多 种 工具 的 组 合 , 不 同 工 具 之 间 数 据 交换 的 途径 之 一 就 是 通过 标准 的 元 
数据 。 

在 过 去 的 几 年 里 ,元 数据 的 概念 在 现实 中 大 量 使 用 ,有 时 为 了 支持 信息 检索 ,有 时 为 了 
软件 配置 ,有 时 为 了 不 同系 统 之 间 的 数据 交互 。 对 于 不 同 的 领域 专家 ,元 数据 有 着 不 同 的 应 
用 ,但 至 少 有 两 点 是 共同 的 , 即 元 数据 是 对 数据 的 描述 ; 元 数据 的 存在 是 为 了 更 有 效 地 使 用 
数据 。 

对 于 元 数据 ,根据 观察 角度 的 不 同 , 可 以 划分 为 不 同 的 类 别 。 

按照 与 特定 领域 是 否 相 关 可 划分 为 : 

* 与 特定 领域 相关 的 元 数据 一 一 描述 数据 在 此 特定 领域 内 的 公共 属性 。 

* 与 特定 领域 无 关 的 元 数据 一 一 描述 所 有 数据 的 公共 属性 。 

。 与 模型 相关 的 元 数据 一 一 描述 信息 和 元 信息 建 模 过 程 的 数据 。 此 类 元 数据 又 可 分 

为 两 类 : 

(1) 横向 模型 关联 元 数据 一 一 综合 现 有 的 两 个 或 多 个 信息 模型 ,例如 两 个 不 同 数据 库 
之 间 的 交互 .从 多 个 数据 源 中 提取 数据 时 ,就 需要 这 种 横向 模型 关联 元 数据 。 当 不 同 的 信息 
模型 之 间 进 行 互通 时 ,需要 模型 中 各 个 层 的 关联 描述 , 即 横向 模型 关联 元 数据 。 

(2) 纵向 模型 关联 元 数据 一 一 模型 信息 层 与 元 信息 层 之 间 的 关联 元 数据 。 不 同 的 层 可 
以 采用 不 同 的 模型 ,上 层 是 下 层 的 结构 描述 ,上 下 层 之 间 的 对 应 关联 , 即 纵向 模型 关联 元 
数据 。 

。 其 他 元 数据 ,例如 系统 硬件 .软件 描述 和 系统 配置 描述 等 。 


按照 元 数据 的 应 用 场合 可 划分 为 : 

。 数据 元 数据 ,又 称 为 信息 系统 元 数据 。 信 息 系统 使 用 元 数据 描述 信息 源 , 以 按照 用 
户 需求 检索 . 存 取 和 理解 源 信 息 。 因 此 ,数据 元 数据 保证 了 在 新 的 应 用 环境 中 使 用 
信息 ,支持 了 整个 信息 结构 的 演进 。 

。 过 程 元 数据 ,又 称 为 软件 结构 元 数据 。 过 程 元 数据 是 关于 应 用 系统 的 信息 , 它 帮 助 

用 户 查 找 , 评 估 、 存 取 和 管理 数据 。 大 型 软件 结构 中 包括 描述 各 个 组 件 接口 ,功能 和 
依赖 关系 的 元 数据 ,这 些 元 数据 保证 了 软件 组 件 的 灵活 、 动 态 配 置 。 

按照 元 数据 的 具体 内 容 可 划分 为 : 

* 内 容 (Content) 一 一 识别 ,定义 ,描述 基 本 数据 元 素 ,包括 数 据 单元 ,合法 值 域 等 。 

。 结构 (Structure) 一 一 在 相关 范围 内 定义 数据 元 素 的 逻辑 概念 集合 。 

* 表示 (Representation) 一 一 描述 每 个 值 域 (多 为 技术 相关 ) 的 物理 表示 ,以 及 数据 元 

素 集 合 的 物理 存储 结构 。 
。 文 法 (Context) 一 一 提供 基础 数据 的 族 系 和 属性 评估 ,包括 所 有 与 基础 数据 的 收集 、 
处 理 和 使 用 相关 的 信息 。 

此 外 ,按照 用 途 的 不 同 可 划分 为 技术 元 数据 (Technical Metadata) 和 业务 元 数据 
(Business Metadata) 两 大 类 。 技 术 元 数据 存储 关于 数据 仓库 系统 技术 细节 的 数据 ,是 用 于 
开发 和 管理 数据 仓库 的 数据 , 它 保 证 了 数据 仓库 系统 的 正常 运行 ; 业务 元 数据 是 从 业务 角 
度 描 述 数 据 仓 库 中 的 数据 , 它 提 供 介 于 使 用 者 和 实际 系统 之 间 的 请 义 层 ,使 得 数据 仓库 使 用 
人 员 能 够 “ 读 懂 ?数据 仓库 中 的 数据 。 


1.4.2 标准 化 


关于 元 数据 的 标准 化 ,就 内 容 而 言 大 致 可 分 为 两 类 : 一 是 元 数据 建 模 , 即 对 将 来 元 数据 
的 组 织 进行 规范 定义 ,使 得 在 元 数据 建 模 的 标准 制定 之 后 产生 的 元 数据 均 以 一 致 的 方式 组 
织 , 从 而 保证 元 数据 管理 的 一 致 性 和 简单 性 ; 二 是 元 数据 交互 , 即 对 已 有 的 元 数据 组 织 方式 
以 及 相互 间 交 互 格式 进行 规范 定义 ,实现 不 同系 统 元 数据 的 交互 。 目 前 ,定义 元 数据 相关 规 
范 的 主要 组 织 机 构 包 括 : 

1. 对 象 管理 组 织 (Object Management Group. OMG) 

1995 年 OMG 采用 MOF(Meta Object Facility) 并 不 断 完善 ; 1997 年 采用 UML; 2000 
年 又 采用 通用 仓库 元 模型 (Common Warehouse Metamodel,CWM) 。UML MOF 和 CWM 
这 三 个 标准 形成 了 OMG 建 模 和 元 数据 管理 .交换 结构 的 基础 ,推动 元 数据 标准 化 的 快速 
发 展 。 

2. 元 数据 联合 会 (Meta Data Coalition .MDC) 

MDC 成 立 于 1995 年 , 旨 在 提供 标准 化 的 元 数据 交互 。MDC 于 1996 年 开发 了 MDIS 
(Meta Data Interchange Specification) 并 完成 MDC-OIM 的 技术 评审 ,MDC-OIM 基于 Microsoft 
的 开放 信息 模型 OIM(Open Information Model) ,是 一 个 独立 于 技术 、 以 厂商 为 核心 的 信息 
模型 。OIM 是 微软 公司 的 元 数据 管理 产品 Microsoft Repository 的 一 部 分 ,由 微软 和 其 他 
二 十 多 家 公司 共同 开发 ,作为 微软 开放 过 程 的 一 部 分 ,经 过 了 三 百 多 家 公司 的 评审 。 

为 了 推动 元 数据 的 标准 化 , MDC 和 OMG 在 元 数据 标准 的 制定 上 协同 工作 。1999 年 
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4 月 ,MDC 成 为 OMG 的 成 员 , 而 OMG 也 同时 成 为 MDC 的 成 员 。MDC 使 用 了 OMG 的 
UML, hi MDC-OIM 中 的 数据 仓库 部 分 被 用 来 作为 OMG 的 公共 仓库 元 数据 交互 
(Common Warehouse Metadata Interchange,CWMDJD) 的 设计 参考 。 在 两 个 组 织 技 术 力 量 的 
合作 努力 下 ,元 数据 标准 逐步 实现 标准 化 。 

下 面 将 重点 介绍 通用 仓库 元 模型 。 


1.4.3 CWM 


目前 ,数据 仓库 产品 很 多 ,它们 对 元 数据 都 有 自己 的 定义 和 格式 ,因此 创建 ,管理 和 共享 
元 数据 很 耗 时 而 且 容 易 出 错 。 为 了 解决 上 述 问题 ,必须 采用 标准 的 语言 描述 数据 仓库 元 数 
据 的 结构 和 语义 ,并 提供 标准 的 元 数据 交换 机 制 。 
但 是 ,元 数据 的 交换 涉及 很 多 问题 ,例如 元 数据 的 表示 形式 以 及 交换 机 制 等 。 为 了 解决 
上 述 问题 ,OMG 在 2000 年 提出 了 一 套 关 于 数据 仓库 元 数据 的 CWM 规范 ,其 主要 目的 是 
方便 异 质 、 分 布 式 系 统 中 的 数据 仓库 工具 、 数 据 仓 库 平 台 以 及 元 数据 库 之 间 的 元 数据 交换 ， 
旨 在 推动 数据 仓库 、 商 业 智能 和 知识 管理 方面 元 数据 的 共享 和 交换 。 与 OMG 合作 提出 
CWM 规范 的 公司 包括 IBM, Unisys, NCR, Hyperion Solutions, Oracle, UBS AG, Genesis 
Development, Dimension EDI. 还 有 一 些 公司 明确 表示 支持 CWM, 4 ff SUN, HP, Data 
Access Technologies, InLine Software, Aonix, Hitachi Ltd. 。 
提出 CWM 的 主要 原因 在 于 : 
。 从 数据 仓库 开发 者 的 角度 而 言 ,单一 工具 很 少 能 完全 满足 用 户 不 断 变 化 的 需求 ,但 
同时 又 很 难 对 各 种 产品 进行 集成 ; 
。 从 数据 仓库 用 户 的 角度 而 言 , 面 对 的 信息 量 太 大 ,无 法 轻易 找到 自己 真正 需要 的 ,而 
且 把 这 些 信息 完整 正确 地 表示 出 来 也 是 一 个 挑战 ; 
。 从 数据 仓库 供应 商 的 角度 而 言 , 目 前 信息 的 共享 还 没有 标准 格式 ,元 数据 集成 的 代 
价 太 大 。 
CWM 主要 基于 以 下 三 个 工业 标准 : 
e UML(Unified Modeling Language, 统 一 建 模 语言 ) 是 OMG 的 一 个 建 模 标准 。 
。 MOF(Meta Object Facility, 元 对 象 工具 ) 是 OMG 关于 元 模型 和 元 数据 库 的 一 个 
标准 。 
* XMKXML Metadata Interchange. XML 元 数据 交换 ) 是 OMG 关于 元 数据 交换 的 
标准 。 
这 三 个 标准 是 OMG 元 数据 库 体系 结构 的 核心 ,UML 定义 了 表示 模型 和 元 模型 的 语法 
和 语义 ; MOF 为 构建 模型 和 元 模型 提供 了 可 扩展 的 框架 ,并 提供 存 取 元 数据 的 程序 接口 ; 
而 利用 XMI 则 可 以 将 元 数据 转换 为 标准 的 XML 数据 流 或 文件 格式 ,便于 交换 ,这 大 大 增 
强 了 CWM 的 通用 性 。 
为 了 说 明 CWM 和 这 三 个 标准 之 间 的 关系 ,首先 介绍 一 下 元 数据 的 层次 。 传 统 的 元 数 
据 包括 四 个 层次 ,除了 最 底层 外 ,每 一 层 都 对 其 下 一 层 进 行 描述 。 最 底层 是 用 户 对 象 层 
(M0) ,包括 用 户 描述 的 信息 ,这 些 信息 统称 为 数据 ; 上 一 层 是 模型 层 (M1) ,由 描述 信息 的 
元 数据 组 成 ,在 这 一 层 元 数据 一 般 都 组 合成 模型 的 形式 ; 再 上 一 层 是 元 模型 层 (M2) ,由 定 


X. MI 层 元 数据 格式 和 语义 的 描述 信息 组 成 , 即 元 元 数据 ,一 般 组 合成 元 模型 的 形式 ; 最 高 
层 是 元 元 模型 层 (M3) , 它 定义 元 模型 的 结构 和 语义 。 四 层 结构 的 示例 如 图 1. 8 所 示 。 


固定 的 元 元 模型 


元 元 模型 (M3) 


MetaClass("Record", 
[MetaAttr(("name"). String), 
MetaAttr(("fields"), list<Field>)]) 
MetaClass("Field". ...) 


元 模型 (M2) 


Record("Student", 
Field("name", String), 
Field("sex", String)...) 


模型 (M1) 


Student(" 
Student( 


信息 、 数 据 (M0) 


1.8 元 数据 层次 结构 示例 


其 中 ,四 层 分 别 是 : 

。 数据 层 是 学 生 记录 (Record) 的 实例 , 即 具体 的 某 个 学 生 ; 

。 模型 层 描 述 学 生 这 个 记录 类 型 的 内 容 , 它 有 一 个 名 字 (Student) 和 两 个 字段 (Field)， 
每 个 字段 都 有 一 个 名 称 和 类 型 ,例如 第 一 个 字段 的 名 称 是 name, 字 段 类 型 是 
String; 

* 元 模型 层 对 Record 这 一 类 型 进行 定义 ,在 这 一 层 Record 是 元 类 MetaClass 的 一 个 
实例 ,一 个 Record 拥有 两 个 元 属性 MetaAttribute: 第 一 个 name 定义 其 名 字 , 是 
String 类 型 ; 第 二 个 fields 定义 它 包含 的 字段 集 ,字段 集 的 成 员 是 Field 类 型 。 类 似 
地 ,元 类 Field 应 该 也 包含 两 个 元 属性 , 即 名 字 (Name) 和 类 型 (Type); 

。 元 元 模型 层 的 结构 基本 固定 , 它 将 所 有 概念 抽象 为 以 下 组 件 : 元 类 MetaClass\ 元 属 
性 MetaAttribute 和 元 关联 MetaAssociation, 并 定义 了 元 类 之 间 的 关系 ,主要 包括 
包含 (Contains) ,继承 (Generalizes) 、 类 型 引用 (IsOfType ) 和 依赖 (DependsOn) 。 

理论 上 还 可 以 再 向 上 抽象 ,但 由 于 元 元 模型 层 是 自 描述 的 ,所 以 四 层 足 够 了 。 至 于 为 什 

么 要 抽象 出 上 面 两 层 , 则 是 为 了 支持 各 种 不 同 的 模型 和 元 模型 。 
综 上 所 述 ,OMG 规范 和 元 数据 四 层 结构 的 对 应 关系 如 表 1. 2 所 示 。 


表 1.2 OMG 规范 和 元 数据 四 层 结 构 的 对 应 关系 


元 数据 层次 MOF 术语 示 例 
M3 元 元 模型 MOF 模型 
M2 元 模型 ,元 元 数据 UML 元 模型 ,CWM 元 模型 
M1 模型 ,元 数据 UML 模型 ,CWM 模型 
MO 对 象 ,数据 数据 仓库 数据 
1. 组 成 


CWM 完整 地 描述 了 数据 仓库 元 数据 交换 的 语法 、 语 义 以 及 用 于 异 质 平台 之 间 的 元 数 
据 交换 机 制 ,由 三 部 分 组 成 。 
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D CWM 元 模型 

CWM 元 模型 描述 数据 仓库 的 组 成 元 素 , 用 户 可 以 按照 这 些 元 模型 开发 相应 的 组 件 , 例 
如 ETL、OLAP 和 数据 挖掘 等 。 为 了 降低 复杂 度 并 重用 ,CWM 元 模型 采用 分 层 的 方式 组 
织 所 包含 的 包 , 如 图 1.9 所 示 。 


管理 包 数据 仓库 处 理 数据 仓库 运行 

分 析 包 转换 OLAP | ”数据 挖掘 | 信息 可 视 化 | 业务 命名 
资源 包 | 面向 对 象 | 关系 记录 多 维 XML 
基础 包 | 业务 信息 | 数据 类 型 | 表达 式 | 关键 字 和 索引 | 类 型 映射 | 软件 部 署 
UMLI. 3 


图 1.9 CWM 元 模型 的 包 结构 


图 1.9 P CWM 元 模型 主要 包括 基础 (Foundation ) 包 、 资 源 (Resource) 包 、 分 析 
(Analysis) 包 和 管理 (Management) 包 , 共 四 层 。 

基础 包 主要 定义 为 CWM 其 他 包 所 共享 的 一 些 基本 概念 和 结构 ,包含 的 子 包 为 ， 

。 Business Information 一 一 定义 面向 业务 的 通用 信息 ,例如 负责 人 信息 等 。 

* Data Types 一 一 定义 其 他 包 用 以 创建 所 需 的 数据 类 型 的 元 模型 组 件 。 

* Expressions 一 一 定义 CWM 其 他 包 定 义 表达 式 树 所 需 的 元 模型 组 件 。 

* Keys and Indexes 一 一 定义 描述 关键 字 和 索引 的 共享 元 模型 。 

。 Software Deployment 一 一 描述 一 个 软件 在 数据 仓库 中 如 何 被 使 用 的 元 模型 。 

* Type Mapping 一 一 支持 不 同系 统 之 间 数 据 类 型 映射 的 元 模型 。 

资源 包 主要 定义 一 些 描述 常用 的 源 /目标 数据 的 元 模型 ,包含 的 子 包 为 : 

* Relational 一 一 描述 通过 关系 型 接口 访问 的 数据 库 的 数据 模型 和 元 模型 ,例如 
RDBMS, ODBC 和 JDBC 等 。 

。 Record 一 一 描述 记录 的 基本 概念 和 结构 的 元 模型 ,这 里 记录 的 概念 很 广泛 , 它 可 以 
描述 任何 结构 化 的 信息 ,例如 数据 库 的 一 条 记录 ,文档 等 。 

* Multidimensional 一 一 描述 多 维 数据 库 的 元 模型 。 

* XML 一 一 描述 用 XML 表示 的 源 /目标 数据 。 

分 析 包 主要 定义 一 些 描述 数据 仓库 工具 的 元 模型 ,包含 的 子 包 为 : 

* Transformation 一 一 定义 数据 仓库 中 抽取 转换 规则 的 元 模型 ,包含 对 各 种 类 型 数据 
源 之 间 的 转换 规则 的 描述 。 

* OLAP 一 一 对 OLAP 工具 和 应 用 进行 描述 ,并 定义 其 到 实际 系统 的 映射 。 

* Data Mining 一 一 对 数据 挖掘 工具 和 应 用 进行 描述 。 

* Information Visualization 一 一 定义 问题 域 中 有 关 信 息 发 布 或 信息 可 视 化 的 元 模型 。 

* Business Nomenclature 一 一 对 业务 数据 进行 描述 ,例如 业务 术语 及 其 适用 范围 等 。 

管理 包 主要 定义 一 些 描述 数据 仓库 运行 和 调度 信息 的 元 模型 ,包含 的 子 包 为 : 

。 Warehouse Process 一 一 描述 数据 仓库 中 抽取 转换 规则 的 执行 过 程 , 即 各 个 转换 规则 
的 触发 条 件 。 

。 Warehouse Operation 一 一 描述 数据 仓库 日 常 运行 情况 的 元 模型 。 


2) CWM DTD 和 CWM XML 
CWM DTD 和 XML 对 应 于 CWM 中 所 有 包 的 DTD 和 XML, 它 们 都 遵循 XMI 规范 。 

定义 CWM DTD 和 XML 的 主要 目的 是 为 了 基于 XML 进行 元 数据 交换 。 因 为 XML 在 各 

个 领域 的 应 用 越 来 越 广泛 ,CWM 提供 元 模型 到 XML 的 转换 ,无 疑 增 加 了 其 自身 的 通用 性 ， 

各 种 分 析 工 具 和 元 数据 库 可 以 利用 这 些 模板 为 其 元 模型 生成 DTD 和 XML 文档 ,这 样 就 可 

以 和 其 他 的 工具 之 间 进 行 元 数据 交换 。 

3) CWM IDL 
CWM IDL 为 上 述 所 有 的 包 定 义 了 符合 MOF 1.3 的 IDL 接口 ,这 样 就 可 以 利用 
CORBA 进行 元 数据 交换 。 用 户 可 以 创建 一 些 具 有 分 析 功 能 的 软件 包 , 例 如 数据 挖掘 组 件 
等 ,提供 CWM 中 规定 的 IDL 接口 ,就 可 以 被 其 他 支持 CWM 的 工具 和 数据 仓库 调用 ,这 大 
大 增强 了 CWHM 的 灵活 性 和 适用 性 。 
2. 特点 
通过 对 CWM 组 成 的 介绍 ,可 以 看 出 CWM 具有 以 下 特点 : 
。 对 所 有 的 数据 仓库 功能 元 数据 定义 了 详细 的 元 模型 和 交换 方式 ,包括 技术 元 数据 
(例如 Software Deployment, Transformation, Warehouse Process 等 ) 和 业务 元 数据 
(例如 OLAP, Business Information 等 ) 。 
。 定义 了 一 个 通用 且 强 大 的 Transformation 包 , 可 以 表示 任何 源 数据 和 目标 数据 之 间 

的 转换 规则 。 此 外 ,还 为 多 种 常用 的 源 / 目 标 数 据 ( 例 如 Relational、 Record、 

Multidimensional, XML 等) 和 工具 相关 的 数据 源 ( 例 如 IMS、DMSII、COBOL Data, 
Essbase 和 Express 等 ) 定 义 了 元 模型 和 交换 方式 。 

对 所 有 的 数据 仓库 运行 元 素 定 义 了 元 模型 和 交换 方式 ,包括 调度 ,状态 报告 和 历史 

记录 等 。 

。 对 所 有 的 分 析 型 数据 以 及 主要 的 分 析 型 数据 模型 定义 了 元 模型 和 交换 方式 ,例如 多 

。 对 操作 型 数据 以 及 主要 的 操作 型 数据 模型 定义 了 元 模型 ,例如 关系 型 和 面向 对 
象 型 。 

3. 目标 和 原则 

CWM 的 主要 设计 目标 和 原则 包括 : 

。 对 UML 中 概念 的 重用 一 一 UML 1. 3 是 整个 CWM 的 设计 基础 ,CWM 在 任何 可 能 
的 地 方 对 UML 中 的 概念 进行 重用 ,所 有 的 CWM 对 象 类 型 都 直接 或 间接 地 继承 于 
UML, 因 此 也 继承 了 它们 的 属性 和 方法 。 这样 可 以 节省 很 多 重复 工作 ,并 且 使 
CWM 更 容易 理解 ,所 有 熟悉 UML 的 用 户 都 可 以 有 一 个 比较 高 的 起 点 。 

。 模 块 化 一 一 CWM 元 模型 被 分 成 许多 包 ,以便 它 们 分 别 实现 并 减少 复杂 度 。 

。 通 用 化 一 一 CWM 元 模型 独立 于 任何 具体 的 数据 仓库 工具 。 同 时 , 它 尽量 多 地 包含 
了 基于 特定 工具 实现 的 有 代表 性 且 通 用 的 数据 仓库 特点 。 换 言 之 ,只 有 那些 多 种 工 
具 共 享 的 信息 才 会 被 CWM 元 模型 包含 进来 。 

4. 应 用 
CWM 主要 面向 以 下 几 类 用 户 : 
。 数据 仓库 平台 和 工具 提供 商 一 -CWM 提供 了 一 个 组 件 可 插 印 的 通用 系统 框架 , 因 
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为 这 是 一 种 全 球 通用 的 元 数据 交换 协议 ,所 以 可 以 很 方便 地 在 各 种 异 构 平 台 上 发 布 
自己 的 产品 。 

。 数据 仓库 服务 提供 者 一 一 可 重用 、 可 编辑 、 可 扩展 的 CWM 元 数据 大 大 提高 了 工作 
效率 。 因 为 CWM 与 产品 无 关 , 所 以 可 以 避免 大 量 的 重复 工作 。 

"数据 仓库 管理 员 一 一 数据 仓库 管理 员 有 时 需要 对 现 有 工具 进行 整合 ,而 CWM 
XML 无 疑 提供 了 一 种 最 方便 的 整合 方式 。 另 外 ,管理 员 经 常 需要 对 资源 进行 增 减 、 
分 区 或 者 重新 分 配 ,CWM 提供 了 这 方面 的 元 数据 以 帮助 他 们 完成 这 些 工 作 , 并 对 
改变 造成 的 影响 做 出 评估 。 

。 终端 用 户 一 一 CWM 为 查询 和 展示 工具 定义 了 元 模型 ,更 方便 ,快捷 地 为 其 展示 所 
需 的 信息 。 

。 信 息 技术 管理 者 一 一 CWM 为 系统 管理 和 报表 工具 定义 了 元 模型 ,使 得 用 户 能 够 更 
轻松 地 对 系统 和 信息 进行 管理 。 


1.4.4 UML.MOF ff XMI 与 CWM 的 关系 


1. UML & CWM 
UML 是 一 种 面向 对 象 的 建 模 语 言 ,由 曾经 是 面向 对 象 软件 建 模 三 种 主流 语言 的 
Booch, OMT 和 OOSE 综合 而 得 ,后 来 被 OMG 定义 为 面向 对 象 建 模 的 标准 语言 。 目 前 有 
很 多 图 形 工 具 支 持 它 ,并 已 得 到 广泛 应 用 。 
UML 定义 了 多 种 模型 元 素 ,支持 面向 对 象 系统 的 静态 建 模 和 行为 建 模 。UML 静态 模 
型 包含 对 类 及 其 属性 操作、 接口 的 定义 和 类 之 间 关 联 ( 例 如 继承 、 依 赖 和 包含 等 ) 的 定义 。 
对 系统 行为 语义 的 建 模 可 以 用 序列 图 和 协作 图 完成 。CWM 规范 主要 使 用 了 UML 的 静 
态 图 。 
UML 语言 由 一 个 用 UML 表示 的 元 模型 (或 语义 模型 ) 定 义 , 这 种 递归 定义 使 得 整个 
UML 可 以 基于 非常 少 的 (三 个 ) 未 定义 元 素 。 此 外 .MOF 定义 了 UML 的 元 元 模型 以 表示 
一 个 递归 的 UML 元 模型 的 语义 。 
CWM 元 模型 直接 从 UML 元 模型 继承 而 来 ,换言之 ,CWM 中 的 类 都 直接 或 间接 地 继 
承 了 UML 中 类 的 语法 和 语义 。 例 如 CWM Relational 包 中 的 关系 模型 定义 了 一 个 叫 
Table 的 类 ,表示 任何 关系 数据 库 中 的 表 , 这 个 类 继承 于 UML 中 的 Class 类 。 类 似 地 ， 
Column 类 继承 于 Attribute 类 ,这 就 建立 了 Table 和 Column 之 间 的 语义 关系 , 即 Table 是 
一 些 Column 的 集合 ,这 些 Column 具有 一 些 共 同 的 属性 ,但 各 自 的 属性 值 不 同 。 这 等 同 于 
UML 中 类 和 属性 的 关系 ,把 Table 和 Column 分 别 作为 类 和 属性 的 子 类 就 内 在 地 确立 了 这 
种 等 同 关系 。CWM 这 种 直接 从 UML 核心 元 模型 中 派生 出 数据 仓库 领域 元 模型 的 好 处 有 
很 多 ,例如 : 
。 CWM 元 模型 成 为 UML 核心 元 模型 的 扩展 , 即 它 可 以 直接 使 用 UML 作为 构建 数 
据 仓库 领域 元 模型 和 模型 (元 模型 的 实例 ) 的 语言 。 

* CWM 可 以 直接 使 用 UML 图 形 标记 表示 数据 仓库 元 模型 。 

。 CWM 可 以 直接 使 用 UML 元 模型 中 已 经 定义 的 语法 和 语义 ,无 须 重 新 定义 ,这 通常 
指 对 抽象 层次 比较 高 的 元 类 及 其 关联 等 概念 的 重用 。 例 如 ,CWM Relational 包 中 


的 元 类 Table 和 Column 之 间 的 关系 继承 了 UML 中 的 元 类 Classifier 和 Feature 之 
间 的 关系 ,在 CWM 的 Relational 元 模型 中 就 无 须 明 确 地 定义 Table 和 Column 之 
间 的 关联 。 
CWM 元 模型 可 以 直接 使 用 UML 元 模型 中 定义 的 数据 类 型 。UML 元 模型 用 元 类 
DataType 定义 了 数据 类 型 的 概念 ,在 CWM 中 可 以 通过 为 DataType 定义 M2 层 描 
述 的 方式 对 其 进行 扩展 ,添加 一 些 标准 的 数据 类 型 ,例如 SQL 或 CORBA 中 的 标准 
类 型 等 。 
CWM 使 用 UML 元 模型 作为 描述 面向 对 象 型 数据 源 的 元 模型 。 
CWM 可 以 使 用 UML 规范 中 定义 的 OCLCObject Constraint Language, 对 象 约束 
语言 ) 表 示 对 CWM 元 模型 的 约束 条 件 。 
2. MOF 与 CWM 
MOF 是 OMG 用 来 定义 元 数据 并 将 其 表示 为 CORBA 对 象 的 一 种 技术 , 它 支持 任何 能 
用 对 象 建 模 技 术 表 示 的 元 数据 ,这 些 元 数据 可 以 按照 用 户 需 求 在 任意 层次 ,程度 描述 系统 的 
任何 信息 。 
模型 ,作为 一 种 对 现实 世界 的 描述 方法 也 是 元 数据 。 模 型 的 概念 是 高 度 可 变 的 , 它 依 赖 
于 观察 的 角度 。 例 如 对 于 那些 关心 整个 系统 的 人 而 言 ,模型 应 该 包括 系统 所 有 的 元 数据 。 
在 MOF 中 ,模型 可 以 是 任意 具有 抽象 语法 和 语义 的 元 数据 的 集合 。 元 数据 本 身 就 是 一 种 
数据 ,因此 它 还 可 以 被 其 他 元 数据 描述 。 在 MOF 中 ,包含 这 种 元 数据 的 模型 称 为 元 模型 。 
MOF 元 模型 定义 了 用 MOF 格式 描述 模型 中 元 数据 的 抽象 语法 ,因为 一 个 系统 中 一 般 都 会 
有 很 多 类 型 的 元 数据 ,相应 地 就 会 有 多 种 元 模型 。 为 了 集成 这 些 元 模型 , MOF 定义 了 一 套 
通用 的 元 模型 构造 语法 ,这 种 语法 称 为 MOF 模型 , 它 是 描述 元 模型 的 模型 。 实 际 上 , 它 处 
于 M3 层 , 应 该 是 元 元 模型 ,这 里 简称 MOF 模型 。 
MOF 规范 由 三 部 分 组 成 : MOF 模型 规范 、MOF IDL 映射 和 MOF 接口 。 
MOF 模型 是 MOF 内 部 定义 的 元 元 模型 ,可 以 看 作 是 定义 MOF 元 模型 的 抽象 语言 ,六 
和 UML 元 模型 定义 UML 模型 类 似 , 只 不 过 前 者 是 为 了 元 数据 建 模 ,后 者 是 为 了 对 象 建 
模 。 实 际 上 ,基于 MOF 的 模型 就 是 用 UML 标识 的 。MOF 主要 提供 四 种 组 件 构造 MOF 
元 模型 , 即 类 (Class) ,关联 (Association) 、 包 (Package) 和 数据 类 型 (Data Type)。 这 些 概念 
和 UML 中 的 类 似 ,只 是 进行 了 一 些 简 化 ,具体 如 下 : 
。 处 于 定义 和 实现 层 的 类 都 可 以 拥有 属性 和 方法 。 在 MOF 元 模型 中 ,属性 表示 元 数 
据 ; 方法 提供 对 特定 元 模型 中 元 数据 的 操作 。 属 性 和 方法 的 参数 可 以 定义 为 有 序 。 
。 关联 支持 对 类 的 实例 的 二 元 连接 。 每 个 关联 都 有 两 个 端点 ,并 可 以 对 其 排序 性 和 唯 
一 性 等 方面 进行 限制 。 如 果 一 个 类 是 一 个 关联 的 端点 ,那么 它 就 可 以 包含 通过 这 个 
关联 到 对 方 类 的 实例 的 引用 。 
。 包 是 相关 的 类 和 关联 的 集合 。 包 之 间 可 以 引用 ,继承 和 榜 套 。 
。 数据 类 型 使 属性 和 参数 可 以 使 用 非 对 象 的 类 型 。 在 MOF 中 ,它们 必须 是 能 够 用 
CORBA IDL 表示 的 数据 类 型 或 接口 类 型 。 
MOF IDL 映射 是 一 套 将 MOF 元 模型 映射 到 CORBA IDL 的 标准 模板 。MOF 元 素 
(M2 层 ) 到 CORBA 对 象 (M1 层 ) 的 映射 关系 如 下 : 类 映射 为 元 数据 对 象 的 IDL 接口 和 元 
数据 类 代理 ,IDL 接口 支持 原 类 中 定义 的 属性 、 操 作 和 引用 ,而 类 代理 提供 对 元 数据 对 象 的 
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代理 操作 。MOF 关联 映射 为 元 数据 关联 代理 的 接口 ,这 个 关联 代理 支持 对 关联 的 查询 和 
更 新 操作 。MOF 包 映 射 为 一 个 接口 和 元 数据 包 代 理 , 这 个 包 代理 实际 上 是 包含 原 包 中 类 
和 关联 的 代理 的 容器 。 

MOF 接口 是 表示 MOF 元 模型 的 CORBA 对 象 的 接口 ,一 般 使 用 现 有 工具 访问 MOF 
模型 库 ,其 建 模 开发 人 员 无 须 了 解 ,只 有 那些 开发 基于 MOF 工具 的 程序 员 才 需要 了 解 。 

OMG 已 经 采用 MOF 作为 定义 元 模型 的 标准 ,CWM 元 模型 就 遵循 这 个 标准 。 这 样 ， 
CWM 就 可 以 使 用 OMG 其 他 基于 MOF 的 标准 ,尤其 是 可 以 用 XMI 交换 CWM 模型 表示 
的 数据 仓库 元 数据 ,并 用 IDL 和 其 他 程序 语言 访问 这 些 元 数据 。 

3. XMI 与 CWM 

XMI 的 主要 作用 是 用 流 的 方式 进行 模型 交换 ,因为 OMG 采用 MOF 表示 元 数据 ,XMI 
的 重点 自然 就 是 MOF 元 数据 ( 即 遵 循 MOF 元 模型 的 元 数据 ) 的 交换 。XMI 支持 任何 能 用 
MOF 规范 表示 的 元 数据 的 交换 , 它 不 仅 可 以 对 整个 模型 或 部 分 模型 组 成 的 元 数据 进行 编 
码 , 还 可 以 对 特定 工具 扩展 的 元 数据 编码 。 

XMI 可 以 看 作 是 一 种 独立 于 中 间 件 的 通用 的 元 数据 交换 格式 ,任何 能 够 编写 和 解析 
XML 数据 流 的 元 数据 库 或 工具 之 间 都 可 以 进行 元 数据 交换 ,它们 无 须 实现 MOF 定义 的 
CORBA 接口 ,甚至 根本 不 用 支持 CORBA。XMI 还 为 非 MOF 的 元 数据 库 提 供 了 一 种 交换 
方式 ,只 要 它 能 够 将 自身 的 元 模型 映射 为 KMI 文档 即 可 。 

XMI 基于 W3C 的 XML, 实际 上 就 是 一 对 并 行 的 映射 ,一 个 在 MOF 元 模型 和 XML 
D'TD(Document Type Definition ,文档 类 型 定义 ) 之 间 , 另 一 个 在 MOF 元 数据 和 XML 文档 
之 间 。 

XMI 主要 由 两 部 分 组 成 , 即 : 

* XML 文档 生成 规则 一 一 定义 了 将 元 数据 编码 为 XML 格式 文档 的 规则 ,利用 这 个 

规则 还 可 以 将 XMI 文档 解码 得 到 元 数据 。 

* XML DTD 生成 规则 一 一 定义 了 为 编码 后 的 元 数据 生成 XML DTD 的 规则 ,DTD 

是 XML 文档 的 语法 说 明 ,一 般 的 XML 工具 都 可 以 用 它 来 解析 和 验证 XMI 文档 。 

CWM 用 XMI 作为 交换 机 制 ,这 样 数 据 仓 库 元 数据 和 CWM 元 模型 本 身 都 可 以 充分 利 
用 XMI 的 灵活 性 和 强大 性 。CWM 元 模型 通过 XMI DTD 生成 规则 产生 一 个 标准 的 DTD， 
而 数据 仓库 元 数据 则 可 以 通过 KMI 文档 生成 规则 编码 为 一 个 XML 文档 。 这 大 大 增加 了 
CWM 的 适用 性 ,任何 能 够 编写 和 解析 XML 数据 流 的 元 数据 库 或 工具 之 间 只 需 将 自己 的 元 
数据 转换 为 CWM 模型 的 形式 就 可 以 利用 XMI 实现 元 数据 交换 , 即 它们 所 描述 的 数据 
交换 。 


1.5 数据 粒度 


数据 仓库 保存 了 大 量 的 历史 数据 ,为 了 保证 数据 的 存储 效率 和 组 织 清晰 ,数据 仓库 的 数 
据 以 不 同 粒度 进行 存储 。 

数据 仓库 中 存在 不 同 的 综合 级 别 , 一 般 称 为 “粒度 ”。 粒 度 越 大 ,表示 细节 程度 越 低 , 综 
合 程度 越 高 。 四 种 粒度 级 别 分 别 是 早期 细节 级 、 当 前 细节 级 、 轻 度 综合 级 和 高 度 综合 级 ,分 
别 反 映 不 同 的 数据 需求 。 由 此 可 知 ,数据 仓库 中 数据 生存 周期 , 即 源 数据 经 过 综合 后 首先 进 


入 当前 细节 级 ,并 根据 具体 需要 进一步 的 综合 ,从 而 进入 轻 度 综合 级 乃至 高 度 综合 级 , 老 
化 的 数据 将 进入 早期 细节 级 。 数 据 仓库 的 核心 是 在 系统 中 保留 最 有 可 能 被 用 户 使 用 的 
数据 。 


1.6 数据 模型 


数据 模型 是 对 现实 世界 的 一 种 抽象 ,根据 抽象 程度 的 不 同 , 形 成 了 不 同 抽象 层次 上 
的 数据 模型 。 与 关系 型 数据 库 的 数据 模型 类 似 , 数 据 仓库 的 数据 模型 也 分 为 如 下 三 个 
层次 。 

1. 概念 模型 

概念 模型 是 客观 世界 到 计算 机 系统 的 一 个 中 间 层 次 ,最 常用 的 表示 方法 是 E-RCEntity- 
Relationship ,实体 -关系 ) 图 。 目 前 ,数据 仓库 一 般 建立 在 数据 库 基础 上 ,所 以 其 概念 模型 与 
一 般 关 系 型 数据 库 采用 的 概念 模型 一 致 

2. 逻辑 模型 

逻辑 模型 是 数据 的 多 辑 结构 ,如 多 维 模型 .关系 模型 和 层次 模型 等 。 数 据 仓 库 的 逻辑 模 
型 描述 了 数据 仓库 主题 的 逻辑 实现 , 即 每 个 主题 对 应 的 模式 定义 。 

3. 物理 模型 

物理 模型 是 逻辑 模型 的 具体 实现 ,如 物理 存 取 方 式 、 数 据 存储 结构 数据 存放 位 置 以 及 
存储 分 配 等 。 在 设计 数据 仓库 的 物理 模型 时 ,需要 考虑 一 些 提高 性 能 的 技术 ,如 表 分 区 和 建 
立 索引 等 。 

目前 ,对 数据 仓库 数据 模型 的 讨论 大 多 集中 在 逻辑 模型 ,其 中 最 常用 的 是 多 维 模型 。 在 
多 维 模 型 中 ,涉及 以 下 一 些 基本 概念 。 

维 是 指 人 们 观察 数据 的 特定 角度 。 例 如 ,企业 常常 关心 不 同 销售 数据 随时 间 的 变化 情 
况 , 所 以 时 间 就 是 一 个 维度 。 

维度 层次 是 指 人 们 观察 数据 的 某 个 特定 角度 还 可 以 存在 细节 程度 不 同 的 多 个 描述 , 即 
维度 层次 。 一 个 维度 往往 有 多 个 层次 。 例 如 描述 时 间 维 度 时 ,可 以 有 年 .季度 .月 和 日 等 不 
同 层次 , 则 年 .季度 .月 和 日 就 是 时 间 维 度 的 层次 。 

维 成 员 是 指 维 的 一 个 取 值 。 如 果 一 个 维 是 多 层次 的 , 则 该 维度 的 成 员 就 是 在 不 同 层 次 
上 取 值 的 组 合 。 例 如 时 间 维 有 年 \ 月 和 日 三 个 层次 , 则 分 别 在 三 个 层次 上 各 取 一 个 值 组 合 起 
来 就 得 到 时 间 维 度 的 一 个 成 员 , 即 * 某 年 某 月 某 日 ”。 

度量 描述 了 要 分 析 的 数值 ,例如 销售 额 等 。 

粒度 是 指数 据 仓 库 所 保存 数据 的 细 化 或 综合 程度 的 级 别 。 细 化 程度 越 高 ,粒度 越 小 ; 
反之 , 细 化 程度 越 低 ,粒度 越 大 。 


1.7 ETL 过 程 
业务 系统 的 数据 经 过 抽取 、 转 换 并 加 载 到 数据 仓库 所 在 的 中 心 存储 库 的 过 程 称 为 


ETL(Extract, Transform and Load) 过 程 ,制定 这 一 过 程 的 策略 称 为 ETL 策略 ,而 完成 
ETL 过 程 的 工具 则 是 ETL 工具 。 相 对 于 数据 仓库 的 表 而 言 ,业务 系统 数据 库 中 的 表 称 
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为 源 表 ,业务 系统 数据 库 称 为 源 数 据 库 , 数 据 仓库 中 所 有 的 数据 都 来 自 于 业务 系统 数据 
库 。 在 构建 数据 仓库 的 过 程 中 ,ETL 的 实施 是 一 项 烦琐 、 宛 长 而 艰巨 的 任务 ,因为 它 关系 
到 数据 仓库 的 数据 质量 问题 。 如 果 导 入 的 数据 漏洞 百出 ,那么 对 决策 者 而 言 无 疑 会 造成 
困扰 。 


1.7.1 主要 流程 


随 着 应 用 和 系统 环境 的 不 同 ,数据 的 抽取 、 转 换 和 加 载 具 有 不 同 的 特点 。 一 般 地 ,ETL 
主要 流程 如 图 1. 10 所 示 。 


1.10 ETL 流程 


(1) 预 处 理 是 正式 开始 作业 之 前 的 准备 工作 ,包括 清空 工作 区 ,检查 过 渡 / 准 备 区 。 在 
需要 直接 访问 操作 型 数据 源 系统 时 ,应 检查 远程 数据 库 服 务 器 状态 ,并 核对 目标 区 数据 加 载 
状态 ,以 核算 出 加 载 作 业 的 参数 ,如 加 载 数据 的 时 间 间 隔 和 范围 (是 24 小 时 的 数据 ,还 是 前 
3 天 的 数据 ) 。 

(2) 启动 数据 加 载 的 批 作业 。 

G) 因为 维 表 有 事实 表 所 参照 的 主键 ,所 以 需要 先 完成 对 维 表 的 加 载 , 生 成 维 表 主键 ， 
并 作为 以 后 加 载 事实 表 所 需 的 外 键 。 在 加 载 维 表 时 ,有 时 需要 处 理 好 缓慢 变化 的 维 ,并 可 能 
涉及 版 本 号 的 处 理 问 题 。 

(4) 加 载 事实 表 。 这 中 间 也 涉及 键 查找 的 问题 , 即 从 有 关 维 表 中 找到 相应 的 主键 ,并 以 
此 作为 事实 表 的 外 键 。 

(5) 事实 表 加 载 完 成 后 ,再 对 实体 化 方 阵 体系 进行 刷新 ,以 保障 实体 化 方 阵 与 其 基础 数 
据 同步 。 

(6) 设计 具有 完善 的 出 错 处 理 机 制 和 作业 控制 日 志 系 统 , 以 监测 和 协调 整个 加 载 
过 程 。 

具体 的 ETL 处 理 流 程 如 图 1. 11 所 示 。 


1.7.2 数据 抽取 
数据 抽取 是 ETL 处 理 的 首要 任务 ,解决 的 主要 问题 是 确定 需要 抽取 的 数据 ,并 采用 适 


当 的 方式 抽取 。 
源 数 据 进 入 数据 仓库 是 通过 数据 抽取 完成 的 ,从 一 个 或 多 个 源 数 据 库 中 通过 记录 选取 


所 有 数据 及 数据 处 理 定义 
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图 1.11 ETL 处 理 流程 


进行 数据 复制 的 过 程 。 抽 取 过 程 将 记录 写 人 ODS(Operational Data Store, 操 作 数 据 存储 ) 
或 者 临时 存储 区 (Staging Area) 以 备 进一步 处 理 。 
数据 抽取 的 主要 功能 包括 : 


数据 提取 一 一 主要 是 确定 要 导入 数据 仓库 的 数据 。 

数据 清洁 一 一 检查 数据 源 中 存在 矛盾 的 数据 ,按照 用 户 确认 的 清洁 规则 对 数据 进行 
修改 。 

数据 转换 一 一 主要 是 将 数据 源 的 数据 转换 成 数据 仓库 要 求 的 格式 ,其 中 包括 数据 格 
式 的 转换 ,例如 将 数据 源 中 的 日 期 字段 转换 成 数据 仓库 要 求 的 字符 形式 ; 数据 内 容 
的 转换 主要 是 将 同一 含义 的 字段 用 统一 的 形式 表达 ; 数据 模式 的 转换 是 由 于 数据 
仓库 系统 和 业务 系统 面向 的 数据 操作 不 同 ,所 以 在 数据 模式 上 也 存在 不 同 ,例如 电 
信 业 务 的 出 账 表 的 主键 包括 用 户 标识 和 费用 项 ,但 是 在 数据 仓库 中 用 户主 题 中 用 户 
账 务 信息 采用 用 户 标识 作 主键 ,将 不 同 费 用 项 的 费用 作为 字段 ,这 样 就 需要 在 数据 
抽取 时 进行 不 同 数据 模式 的 转换 。 
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原理 及 应 用 (第 二 版 ) 


。 生成 衍生 数据 一 一 由 于 数据 仓库 保存 了 大 量 的 历史 数据 同时 需 保证 查询 的 效率 , 需 
要 对 用 户 经 常 进行 的 查询 通过 预 处 理 操作 来 提高 查询 效率 ,生成 衍生 数据 。 衍 生 数 
据 既 包括 某 些 数值 数据 的 预 运算 ,例如 平均 值 和 汇总 等 ,也 包括 某 些 分 类 字段 的 生 
成 ,例如 对 用 户 费 用 的 分 档 信息 等 。 
数据 抽取 的 重要 组 成 部 分 是 变化 数据 捕获 (Change Data Capture, CDC). IE CDC 的 
方法 包括 时 间 戳 . 读 取 RDBMS 系统 的 日 志文 件 、 使 用 源 系统 中 的 触发 器 或 者 自行 开发 
CDC 程序 来 检查 日 志文 件 等 。 时 间 惟 是 最 简单 的 ,也 是 相当 普遍 的 方法 。 前 提 是 所 有 的 源 
表 都 有 时 间 鹤 。 例 如 超市 的 业务 系统 数据 库 中 几乎 每 个 表 都 有 “插入 记录 日 期 "和 “更 新 记 
录 日 期 "两 个 字段 ,这 是 规范 建 库 的 一 个 基本 标准 。 
在 多 数 情况 下 ,数据 源 与 数据 仓库 并 不 处 于 同一 个 数据 服务 器 中 ,它们 往往 是 独立 的 ， 
并 处 在 远程 系统 中 。 数 据 抽取 往往 是 以 远程 .分 布 式 的 方式 进行 ,并 涉及 各 种 各 样 的 方法 和 
手段 ,其 中 包括 : 
* 应 用 SQL* Plus 提取 到 文本 文件 。 
。 应 用 OCI 或 Pro*C 程序 ,或 者 Oracle UTIL_FILE 提取 到 文本 文件 。 
。 应 用 Oracle Export Utility 程序 提取 到 Oracle Export Files 文件 。 
。 远程 数据 复制 。 
。 信息 流 。 
如 果 来 自 操作 型 数据 源 的 数据 含有 不 洁 的 成 分 和 不 规范 的 格式 ,将 对 数据 仓库 的 构建 
和 维护 ,特别 是 对 联机 分 析 处 理 带 来 很 多 问题 和 麻烦 。 因 此 ,必须 在 ETL 中 加 以 解决 ,通常 
包括 以 下 的 处 理 方法 : 
。 拼写 检查 、 分 类 并 与 标准 值 对 照 检查 。 
。 处 理 名字 和 地 址 。 
。 为 名 字 和 地 址 建立 辅助 表 或 联机 字典 , 据 此 进行 检查 修正 。 
。 数据 转换 函数 以 及 子 程序 库 。 
保障 数据 清洁 顺利 进行 的 原则 是 优先 对 数据 清洁 流程 进行 分 析 和 系统 化 的 设计 ,针对 
数据 的 主要 问题 和 特征 ,设计 一 系列 数据 对 照 表 和 数据 清洁 程序 库 的 有 效 组 合 ,以 便 应 对 不 
断 变 化 的 .形形色色 的 数据 清洁 问题 。 
数据 清洁 通常 包括 : 
。 预 处 理 一 一 对 于 新 的 数据 加 载 文 件 (特别 是 新 的 文件 和 数据 集 ) 要 进行 预先 诊断 和 
检测 ,不 能 贸然 加 载 。 有 时 需要 临时 编写 判断 小 程序 , 称 作 * 小 狗 ”, 它 会 用 鼻子 闻 一 
闻 这 个 庞然大物 (不 知 底细 的 文件 ) ,以 进行 “卫生 检查 ”。 
。 标准 化 处 理 一 一 应 用 数据 仓库 内 部 的 标准 字典 ,对 地 名 、 人 名 、 公 司 名 、 产 品名 品类 
名 进行 标准 化 处 理 。 
* 查 重 一 一 应 用 各 种 数据 查询 手段 ,避免 引入 重复 数据 。 
。 出错 处 理 和 修正 一 一 将 出 错 的 记录 和 数据 写 入 日 志文 件 , 留 待 进一步 处 理 。 
数据 仓库 必须 存放 “优质 数据 ”, 即 符合 一 致 性 的 、 大 家 公认 或 经 过 验证 是 有 价值 的 ,并 
自 合 元 数据 定义 的 。 通 过 数据 清洁 能 够 检测 出 那些 违反 规则 的 数据 ,一 旦 发 现 要 么 抛弃 ,要 
么 将 其 转换 成 “清洁 "数据 ,使 其 符合 规则 ,然后 再 装载 到 数据 仓库 。 
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1.7.3 数据 转换 


数据 转换 是 将 抽取 出 的 数据 进行 过 滤 、 合 并、 解码 和 翻译 等 ,为 数据 仓库 创建 有 效 数 据 
的 过 程 。 一 旦 数据 抽取 完成 ,就 需要 设计 并 确定 转换 规则 应 用 于 已 抽取 出 的 数据 。 数 据 转换 
需要 理解 业务 侧重 点 (Business Focus) ,信息 需求 (Informational Needs) 和 目前 可 用 的 数据 源 。 
常用 的 转换 规则 包括 : 
。 字段 级 的 转换 ,主要 是 指数 据 类 型 转换 ; 增加 “上 下 文 ” 数 据 , 如 时 间 惟 ; 解码 
(Decoding) 即 将 数值 型 的 地 域 编码 替换 成 地 域名 称 等 。 
。 清洁 和 净化 ,主要 是 保留 字段 具有 特定 值 或 特定 范围 的 记录 ; 引用 完整 性 检查 ; 去 
。 多 数据 源 整 合 , 主 要 是 字段 映射 (Mapping); 代码 变换 (Transposing) 即 将 不 同 数据 
源 中 的 数据 值 标准 化 为 数据 仓库 数据 值 。 例 如 ,将 原 系 统 非 英文 编码 转换 成 数据 仓 
库 英文 编码 ; 将 原 系统 信息 编码 转换 成 数据 仓库 信息 编码 等 ; 合并 (Merging) 即 将 
两 个 或 更 多 源 系 统 记录 合并 为 一 个 输出 或 “目标 ”记录 ; 派生 (Derivation) 即 根据 源 
数据 ,利用 数学 公式 产生 数据 仓库 需要 的 数据 。 例 如 ,由 身份 证 号 码 计 算出 出 生日 
期 \ 性 别 \ 年 龄 等 。 
。 聚合 (Aggregation) 和 汇总 (Summarization ) 。 
虽然 ,数据 转换 较为 烦琐 ,但 却 是 ETL 三 个 步骤 中 最 简单 的 。 许 多 ETL 工具 都 提供 了 
强大 的 转换 功能 ,例如 DTS 中 有 复制 字段 转换 .小 写字 符 串 转换 ,大 写字 符 串 转换 .中 间 字 
符 串 转换 、 剪 裁 字符 串 转换 .日 期 /时 间 字 符 串 转换 . 读 取 文件 转换 . 写 入 文件 转换 和 
ActiveX 脚本 转换 等 ,其 中 最 常用 的 是 ActiveX 脚本 转换 ,因为 它 允 许 自行 撰写 VBScript 
或 JScript 将 原始 字段 中 的 数据 转换 至 目标 字段 中 的 数据 。 事 实 上 ,如 果 上 述 的 各 种 转换 类 
型 都 无 法 满足 需求 时 , 则 ActiveX 脚本 转换 将 是 最 终 的 选择 。 


1.7.4 数据 加 载 


数据 加 载 是 将 转换 /清洁 后 的 数据 装载 到 数据 仓库 ,实现 数据 加 载 可 选用 的 实用 程序 和 
工具 很 多 ,例如 最 基本 的 Import, SQL Loader 和 SQL 语言 等 。 为 了 提高 程序 和 过 程 的 复 
用 性 ,编写 和 设计 数据 加 载 的 函数 库 / 子 程序 库 是 十 分 必要 的 。 

数据 加 载 包 括 维 表 和 事实 表 的 加 载 ,两 者 具有 不 同 的 加 载 策 略 。 

1. 维 表 加 载 策略 

本 质 上 ,有 三 种 维 表 加 载 策略 。 每 种 策略 按 不 同 的 方式 处 理 维 表 中 的 变化 以 及 更 新 维 
表 数 据 或 捕获 属性 的 变化 历史 。 这 三 种 加 载 策略 统称 为 慢 速 变化 维 表 策 略 (Slowly 
Changing Dimension,SCD) 。 在 这 三 种 策略 中 ,所 有 输入 数据 都 与 现存 的 数据 进行 比较 ,如 
果 在 自然 键 上 没有 发 现 匹 配 的 记录 ,那么 输入 的 记录 就 被 插入 维 表 中 。 自 然 键 由 维 表 中 的 
一 些 列 ( 数 据 项 ) 组 成 ,能 唯一 确定 维 表 中 一 条 记录 的 代理 键 不 包括 在 这 些 列 中 。 

1) 慢 速 变化 维 表 类 型 1(SCD-1) 

在 SCD-1 策略 中 不 需要 保存 历史 记录 。 如 果 一 条 输入 记录 已 经 在 目标 维 表 中 (根据 自 
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然 键 值 进行 判断 ), 则 可 根据 输入 记录 的 数据 对 该 记录 进行 更 新 或 刷新 。 

2) 慢 速 变化 维 表 类 型 2(SCD-2) 

有 时 记录 中 有 一 些 重要 值 ( 即 维 表 中 一 个 或 多 个 列 组 成 的 自然 键 值 ) 需 要 保留 。 在 
SCD-2 策略 中 , 当 相关 事实 发 生 时 ,就 可 保存 一 条 维 表 记 录 。 因 此 ,如 果 一 条 输入 记录 中 的 
某 个 字段 或 列 值 属于 “重要 值 ”, 并 且 它 与 目标 表 中 相应 的 列 值 不 同 , 则 现存 的 记录 就 已 经 
“过 期 * 了 , 则 需要 根据 输入 的 记录 ,在 维 表 中 插入 一 条 新 记录 并 指派 一 个 新 的 代理 键 值 。 如 
果 输 入 记录 中 没有 一 个 重要 值 与 目标 表 中 相应 的 列 有 所 差别 , 则 对 现存 记录 进行 更 新 ,而 不 
是 使 它 过 期 。 

3) 慢 速 变化 维 表 类 型 3(SCD-3) 

SCD-3 与 SCD-2 非常 相似 ,用 于 跟踪 重要 值 的 变化 ,然而 这 种 策略 不 是 为 每 个 变化 添 
加 一 条 不 同 的 记录 ,而 是 在 现存 的 记录 上 使 用 不 同 的 列 来 保存 当前 值 和 任意 的 前 m P LS 
当 探 查 到 一 个 重要 值 发 生变 化 时 ,该 字段 所 有 以 前 的 列 需 要 向 下 一 列 移动 ,第 个 以 前 的 值 
将 被 丢弃 。 但 是 这 种 策略 不 被 很 多 数据 仓库 专家 看 好 ,所 以 不 建议 使 用 ,因为 这 将 加 大 
ETL 的 难度 。 

所 有 的 维 表 加 载 都 遵循 上 述 三 种 策略 ,但 有 两 个 维 表 例外 , 即 静 态 维 表 和 完全 由 新 数据 
替换 的 维 表 。 静 态 维 表 不 会 变化 ,如 果 它 发 生变 化 , 则 发 生 的 唯一 变化 是 在 其 中 添加 一 条 新 
记录 ,时 间 维 表 就 是 一 个 静态 维 表 ; 完全 由 新 数据 替换 的 维 表 通常 是 小 的 代码 列表 ,它们 不 
需要 代理 健 或 变化 历史 。 但 需要 注意 的 是 表 中 任何 重要 值 的 丢失 都 是 不 可 承受 的 。 

2. 事实 表 加 载 策 略 

事实 表 的 加 载 是 必须 的 也 是 非常 重要 的 , 它 是 后 续 数 据 分 析 的 基础 。 事 实 表 的 加 载 就 
是 持续 不 断 地 增加 数据 。 事 实 表 的 加 载 不 是 简单 的 数据 复制 ,必须 首先 将 每 个 事实 表 与 各 
自 的 维 表 的 代理 键 相 结合 ,每 个 源 表 (与 事实 表 关联 的 表 ) 必 须 有 足够 的 信息 用 于 查找 维 表 
中 的 自然 键 ,以 验证 事实 记录 的 完整 性 。 

在 数据 加 载 过 程 中 ,经 常 涉及 主键 查找 的 问题 。 主 要 是 对 某 些 键 查找 函数 程序 进行 修 
改 补充 ,原因 是 这 些 键 查找 程序 需要 异常 控制 (Exception Handling) 以 返回 两 种 不 同 的 结 
果 ( 找 到 的 键 值 或 返回 空 值 ) 。 

加 载 维 表 的 过 程 中 ,在 插入 新 的 记录 或 修改 已 有 记录 之 前 ,需要 比较 某 些 逻辑 键 来 确定 
当前 记录 是 否 存在 。 在 加 载 事实 表 的 过 程 中 ,经 常 涉及 更 多 的 主键 查找 处 理 。 我 们 知道 , 数 
据 仓库 的 事实 表 含 有 许多 外 键 , 并 以 此 与 有 关 维 表 的 主键 相关 联 。 在 进行 事实 表 加 载 时 , 往 
往 需 要 查找 有 关 维 表 的 主键 值 .并 以 此 确定 事实 表 的 外 键 值 。 常 用 的 方法 是 ,通过 从 源 数据 
提取 的 数据 部 分 的 逻辑 键 与 数据 仓库 内 有 关 维 表 的 逻辑 键 进行 比较 和 匹配 ,如 果 匹 配 , 则 取 
维 表 的 主键 值 , 并 以 此 作为 事实 表 的 外 键 值 加 载 到 事实 表 中 。 例 如 对 客户 维度 而 言 , 可 以 通 
过 客户 的 姓名 .邮政 编码 与 客户 维度 进行 比较 ,如 果 匹 配 , 则 以 客户 标志 符 键 作为 事实 表 的 
外 键 。 

逻辑 上 ,实现 ETL 主要 采用 三 种 策略 , 即 远程 抽取 (Remote Extraction) , J£ (Push) 和 
拉 (PulD) 。 其 中 ,远程 抽取 是 指 ETL 过 程 是 在 一 个 独立 的 远程 平台 上 进行 ,这 种 方式 受 数 
据 源 现 有 系统 或 目标 数据 仓库 的 结构 影响 最 小 ,几乎 不 影响 源 和 目标 系统 的 CPU 和 容 
量 ,但 可 能 会 提高 成 本 ,对 网 络 带 宽 要 求 较 高 。 推 是 指 在 现 有 系统 环境 中 开展 ETL 过 程 。 
当 现 有 系统 具有 相当 充裕 的 容量 ,而 且 不 会 超出 CPU 处 理 限 度 时 ,经 常 采 用 这 种 方法 。 当 


现 有 系统 是 同 构 的 ,也 经 常 采用 这 种 方式 。 拉 是 指 ETL 过 程 在 “仓库 ” 端 进 行 , 当 现 有 系统 
是 异 构 时 ,经 常 采 用 这 种 方式 。 当 “仓库 ” 端 平 台 具 备 必需 的 性 能 和 容量 时 ,将 体现 出 一 定 优 
势 。 但 是 由 于 “仓库 ”的 不 断 增长 ,可 能 需要 制定 长 期 策略 。 


1.8 数据 质量 


对 于 企业 而 言 ,数据 已 经 成 为 企业 战略 和 在 激烈 的 市 场 竞争 中 取得 优势 地 位 的 关键 。 
企业 管理 的 核心 是 决策 ,而 决策 的 依据 是 数据 ,只 有 准确 把 握 数据 和 信息 ,才能 为 企业 的 运 
营 把 脉 。 深 刻 分 析 数 据 质量 管理 的 主要 目标 ,明确 数据 的 分 类 与 分 布 , 以 进一步 提高 企业 数 
据 质量 ,保障 数据 挖掘 技术 的 成 功 应 用 和 有 效 实施 。 


1.8.1 主要 问题 


随 着 应 用 系统 数据 量 的 急剧 增加 、 新 应 用 的 不 断 出 现 以 及 应 用 之 间 的 相互 整合 ,数据 质 
量 问题 变 得 日 益 突出 。 目 前 企业 存在 多 地 区 、 多 产品 、 多 业务 和 多 系统 的 环境 ,在 数据 信息 、 
报表 统计 、 业 务 分 析 和 业务 定义 方面 存在 数据 不 一 致 , 不 完整 .不 统一 ,不 真实 和 不 及 时 的 情 
况 。 导 致 业务 人 员 ,管理 者 、 信 息 使 用 者 对 数据 信息 存在 误解 。 质 量 低劣 的 数据 已 成 为 影响 
企业 正确 决策 的 一 个 重要 因素 。 出 现 这 种 现象 的 主要 原因 可 归纳 为 如 下 几 个 方面 。 

1. 多 系统 分 散 建设 

为 适应 迅速 变化 的 市 场 和 竞争 环境 ,企业 构建 了 各 种 面向 特定 应 用 或 部 门 的 系统 。 系 
统 的 分 散 建设 导致 同一 类 数据 分 散在 不 同 的 应 用 系统 中 ,缺乏 统一 的 数据 来 源 和 技术 标准 ， 
导致 出 现 数据 不 规范 不 一 致 和 无 法 共享 等 问题 。 多 系统 提供 数据 ,缺乏 企业 级 统一 、 可 信 
的 数据 源 。 例 如 客户 数据 分 布 在 多 个 核心 业务 系统 中 ,存在 一 个 客户 对 应 多 个 用 户 ID 的 
情况 。 

2. 数据 多 头 管理 

由 于 系统 的 建设 和 管理 职能 分 散在 各 部 门 ,而 各 部 门 中 数据 管理 的 职责 分 散 , 权 责 不 明 
确 , 致 使 数据 管理 的 相关 规范 无 法 有 效 执 行 和 落实 。 在 企业 层面 ,缺乏 统一 的 数据 管理 组 
织 , 致 使 企业 无 法 统一 定义 数据 管理 的 规程 和 标准 等 ,相应 的 数据 管理 监督 措施 无 法 得 到 落 
S ,企业 范围 内 的 数据 考核 体系 还 尚 不 完善 ,无 法 保证 数据 管理 标准 和 规程 的 有 效 执行 。 同 
时 ,也 缺乏 对 于 数据 管理 的 组 织 和 岗位 职责 的 界定 ,各 部 门 数据 管理 人 员 安 排 自行 决 定 。 如 
销售 人 员 管 理 系 统 中 对 各 个 机 构 名 称 不 规范 。 信 息 部 门 无 权 修改 各 家 分 公司 中 机 构 的 名 
称 ,而 业务 部 门 往往 意识 不 到 规范 名 称 的 重要 性 。 

总 之 ,目前 企业 缺乏 统一 的 数据 管理 组 织 , 数 据 管理 职责 分 散 ,导致 权 责 不 明 , 存 在 “人 
人 管理 ,无 人 负责 ”的 现象 ,缺乏 统一 完善 的 数据 管理 制度 和 规范 ,以 及 落实 这 些 制度 与 规范 
的 监督 考核 机 制 。 

3. 缺乏 统一 标准 

由 于 系统 分 散在 各 部 门 进行 管理 或 使 用 ,目前 尚 没有 建立 企业 级 统一 的 数据 标准 。 因 
此 当前 的 数据 标准 大 部 分 由 各 部 门 分 别 制定 ,从 而 导致 数据 管理 过 程 中 缺乏 统一 规范 ,具体 
体现 在 以 下 几 个 方面 : 
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。 尚未 建立 企业 级 统一 的 数据 编码 ,各 业务 部 门 根据 自身 的 业务 需要 和 系统 要 求 , 建 
立 自 己 的 数据 编码 ,从 而 导致 各 类 数据 编码 不 一 致 ,甚至 发 生 冲 突 。 
。 数据 模型 主要 是 在 系统 的 建设 过 程 中 由 各 部 门 根据 需要 分 别 制定 ,导致 数据 模型 不 
统一 ,甚至 部 分 数据 模型 存在 缺陷 。 
"数据 指标 体系 主要 是 各 业务 部 门 根 据 系统 建设 的 需求 分 别 制定 ,对 于 指标 的 口径 解 
释 不 一 致 , 且 部 分 数据 指标 缺失 。 
总 之 ,目前 存在 不 同业 务 在 不 同系 统 中 对 同一 数据 指标 的 解释 和 编码 方式 不 一 致 ,造成 
数据 口径 不 统一 ,数据 模型 也 自 成 体系 ,导致 没有 企业 统一 的 数据 模型 。 
4. 缺乏 完善 的 数据 质量 管理 体系 
目前 ,企业 的 数据 质量 管理 主要 由 各 专业 部 门 分 头 进行 ,数据 稽核 措施 停留 在 专业 部 门 
内 部 ,部门 间 缺乏 交流 ,各 自 为 政 ; 跨 部 门 的 数据 质量 沟通 机 制 不 完善 ; 缺乏 清晰 的 跨 部 门 
的 数据 质量 管理 规范 和 标准 ,数据 分 析 随 机 性 强 ,存在 业务 需求 不 清 的 现象 ,影响 数据 质量 ; 
尚未 全 面 实现 数据 的 自动 采集 ,处 理 过 程 存在 人 为 干预 。 同 时 ,各 部 门 也 存在 数据 质量 管理 
人 员 不 足 、 知 识 与 经 验 不 够 监管 方式 不 全 面 等 多 方面 的 问题 ; 缺乏 完善 的 数据 质量 管控 流 
程 和 系统 支撑 能 力 。 
5. 数据 生命 周期 管理 不 完整 
缺乏 完善 和 统一 的 数据 生命 周期 管理 规范 和 流程 ,不 能 确定 过 期 和 无 效 数据 的 识别 条 
件 , 且 非 结构 化 数据 未 纳入 数据 生命 周期 的 管理 范畴 ; 无 IT 工具 支撑 数据 生命 周期 状态 的 
查询 ,未 有 效 利用 元 数据 管理 ,数据 生命 周期 的 管理 水 平 有 待 提升 。 
6. 对 数据 安全 认识 不 全 面 
目前 ,企业 对 数据 安全 的 认识 主要 集中 在 数据 安全 策略 和 用 户 授权 访问 方面 ,对 数据 安 
全 事件 处 理 和 数据 风险 管理 等 方面 认识 不 够 全 面 。 各 部 门 需要 设置 数据 安全 管理 岗位 , 明 
确 职责 。 对 数据 安全 级 别 的 定义 不 统一 ,信息 披露 审批 机 制 有 待 完善 。 


1.8.2 评价 标准 


数据 质量 可 以 从 数据 的 完整 性 .唯一 性 、 精 准 性 、 合 法 性 、 一 致 性 .及 时 性 和 关联 性 七 个 
方面 进行 评价 ,如 图 1. 12 所 示 。 


1.12 数据 质量 评价 标准 


1. 数据 完整 性 
数据 仓库 的 建设 过 程 是 将 不 同 源 系 统 的 数据 逐步 集成 到 仓库 , 随 着 系统 建设 的 推 
进 , 数 据 越 来 越 丰富 ,数据 仓库 支持 的 功能 越 多 ,数据 的 完整 性 越 来 越 强 。 换 言 之 ,数据 
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完整 性 是 指 实体 不 缺失 、 属 性 不 缺失 .记录 不 缺失 和 字段 is 
值 不 缺失 四 个 方面 。 数 据 是 否 完 备 , 是 衡量 数据 质量 的 
一 个 重要 指标 。 数 据 源 数量 随时 间 的 变化 情况 如 图 1. 13 
所 示 。 

2. 数据 唯一 性 

数据 唯一 性 表现 在 两 个 方面 : 一 方面 同一 数据 的 来 
源 唯一 ; 另 一 方面 ,主键 唯一 和 候选 键 唯 一 。 就 数据 来 源 数据 源 数量 
唯一 而 言 ,例如 就 截至 某 年 某 月 的 用 户 数 来 说 ,有 两 个 系 ”图 1.13 数据 源 数量 随时 间 变 化 
统 数据 来 源 HLR 和 BOSS, 并 且 这 两 个 用 户 数 还 不 尽 相 的 示意 图 
同 。 这 就 要 求 根据 数据 的 用 途 选 择 数据 的 来 源 。 

3. 数据 精准 性 

数据 精准 性 包含 两 方面 的 含义 , 即 准确 和 精确 。 准 确 是 指 从 数据 仓库 系统 展示 给 用 户 
的 从 不 同 角度 组 合 出 来 的 不 同 指标 值 的 真实 程度 ,一 般 是 将 业务 系统 的 值 跟 仓库 展示 出 来 
的 值 进行 比较 ,这 是 数据 质量 最 复杂 、 最 难于 控制 的 一 个 指标 ; 精确 是 指 计量 误差 和 度量 单 
位 等 方面 的 精确 程度 。 

4. 数据 合法 性 

数据 合法 性 包含 两 方面 的 含义 : 一 方面 是 指数 据 来 源 的 合法 性 ,例如 某 地 某 年 的 GDP 
数据 、 某 年 某 月 公司 的 利润 数据 ,都 是 经 权威 部 门 发 布 的 正式 渠道 为 来 源 ,并 在 数据 属性 中 
标明 来 源 ; 另 一 方面 是 指数 据 操 作 过 程 中 格式 、 类 型 、 闪 值 和 业务 规则 的 有 效 性 。 

5. 数据 一 致 性 

数据 一 致 性 是 指数 据 仓 库 中 的 数据 与 源 系统 的 同一 数据 在 不 同 层面 .不 同人 员 的 一 致 
理解 。 在 系统 内 ,又 表现 为 在 不 同 的 处 理 环节 ,信息 的 表示 一 致 , 含 义 一 致 \, 展 现 一 致 和 口径 
一 致 。 

6. 数据 及 时 性 

数据 及 时 性 是 指 在 OLTP 系统 中 变化 或 新 产生 的 数据 ,需要 经 过 多 长 时 间 才 能 到 达 数 
据 仓 库 。 数 据 使 用 是 有 时 限 要 求 的 ,因此 数据 刷新 、 修 改 和 提取 等 操作 的 及 时 性 和 快速 性 是 
一 个 重要 因素 。 通 常 ,引入 数据 延迟 时 间 (Data Delay) 和 数据 访问 响应 速度 加 以 衡量 。 其 
中 ,数据 延迟 时 间 是 指 业 务 系统 发 生变 化 或 新 增 数据 ,体现 到 仓库 数据 所 需要 的 时 间 。 

7. 数据 关联 性 

数据 关联 性 是 指 源 系统 不 同 数据 之 间 存 在 的 内 在 业务 逻辑 关系 承袭 到 目标 系统 数据 
中 ,并 使 这 种 业务 逻辑 在 目标 系统 内 部 数据 间 保 持 不 变 。 例 如 计 费 系统 中 的 通话 时 长 和 计 
费时 长 ,在 分 析 每 爱尔兰 收益 时 ,这 两 个 数据 的 逻辑 关系 就 表现 得 非常 重要 。 通 常 ,用 源 系 
统 的 不 同 数据 之 间 的 关联 来 验证 目标 系统 数据 间 的 关联 。 


1.8.8 管理 目标 
企业 数据 管理 经 历 了 初始 关注 数据 生产 ,进而 关注 数据 管理 ,最 终 关 注 数据 服务 三 个 发 


展 阶段 ,如 图 1.14 所 示 。 
。 数据 生产 阶段 : 数据 生命 周期 (数据 的 产生 ,整合 .存储 和 应 用 ) 和 元 数据 。 
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”数据 管理 阶段 : 基于 元 数据 ,对 数据 生命 周期 的 管理 ,强调 对 数据 标准 、 数 据 所 有 
权 、 数 据 安全 和 数据 质量 的 管理 。 
。 数据 服务 阶段 : 在 数据 管理 基础 上 ,关注 数据 服务 的 需求 和 使 用 。 


元 数据 


( 
EDDA 


图 1.14 数据 管理 的 三 个 阶段 


针对 企业 目前 数据 管理 方面 存在 的 问题 ,需要 制定 数据 管理 目标 , 即 实现 数据 整个 生命 
周期 的 统一 管理 ,实现 统一 数据 管控 ,提供 全 面 、 统 一 的 数据 服务 ,灵活 支撑 业务 ,为 企业 精 
细 化 管理 提供 保障 ,为 企业 发 展 创造 价值 ,以 提升 企业 运营 与 管理 能 力 ,打造 企业 核心 竞 
争 力 。 
因此 数据 管理 需要 达到 以 下 六 个 方面 的 要 求 , 即 : 
。 听 得 懂 。 统 一 数据 “语言 ”, 要 求 数据 管理 有 标准 ”, 即 具备 完善 的 数据 管理 标准 规 
范 , 保 证 在 企业 内 遵循 并 应 用 统一 的 数据 标准 。 
。 不 出 错 。 在 数据 整个 生命 周期 的 各 个 环节 建立 完善 的 数据 质量 稽核 机 制 ,确保 数据 
的 准确 性 ,要 求 企业 具备 完善 的 数据 质量 管理 规范 。 
。 不 乱 改 。 明 确 数据 的 所 有 权 和 更 改 权限 ,制定 完善 的 数据 所 有 权 管理 规范 ,确保 对 
数据 的 所 有 更 改 均 有 “法 "可 依 , 有 “ 据 " 可 查 ; 考虑 是 否 可 以 采用 增 量 修改 技术 。 
。 不 丢失 。 建 立 数据 的 备份 和 容 灾 机 制 , 制 定 完 善 的 数据 安全 管理 规范 ,确保 所 有 数 
据 备份 ,可 恢复 。 
"不 泄露 。 根 据 内 容 和 企业 信息 保密 委员 会 的 相关 要 求 做 好 数据 保密 工作 ,防止 信息 
in ss 
"* 易 使 用 。 制 定 完善 的 数据 服务 管理 规范 ,保证 数据 易 获 取 、 易 应 用 ,以 充分 发 挥 数 据 
作为 企业 资产 的 价值 。 


1.8.4 管理 体系 


为 了 实现 数据 管理 目标 ,构建 完整 的 数据 管理 体系 ,必须 从 制度 、 流 程 和 操作 ,数据 清理 
和 优化 三 个 方面 建立 数据 管理 体系 。 明 确 的 数据 管理 制度 定义 了 数据 管理 应 当 遵循 的 规 
范 ,可 以 有 效 地 保障 数据 流程 及 操作 的 落实 ; 完善 的 流程 是 在 统一 数据 标准 的 基础 上 , 进 一 
步 提高 数据 质量 \ 保 证 数据 安全 所 必须 遵循 的 行为 规程 ; 数据 清理 和 系统 优化 为 数据 规范 
管理 提供 支撑 。 这 三 方面 构成 了 完整 的 数据 管理 体系 ,保证 数据 管理 有 标准 ,有 制度 有 稽 
核 \ 有 手续 ` 有 手段 \ 有 检查 \ 有 考核 ,使 得 各 项 数据 管理 工作 能 够 得 以 有 效 落实 ,达到 数据 准 


确 、 完 整 的 目标 ,并 能 提供 有 效 的 增值 服务 。 

1. 数据 管理 制度 

根据 数据 管理 的 目标 和 主要 内 容 , 明 确 数据 管理 具体 角色 和 职责 的 划分 。 根 据 企业 的 
组 织 架 构 以 及 各 部 门 的 职能 划分 ,数据 管理 涉及 数据 管理 部 门 (如 信息 技术 部 ) 、 业 务 销售 部 
门 (如 业务 管理 部 .个 人 业务 部 ,集团 业务 部 等 ) ,数据 运营 部 门 (如 系统 开发 和 运营 部 门 ) 以 
及 数据 服务 部 门 ( 如 客户 服务 部 等 ) ,如 图 1.15 所 示 。 


公司 总 部 
[ T T 1 
数据 管理 部 业务 销售 部 门 数据 运营 部 门 数据 服务 部 门 
r erer E—E— LLL 
数 || 数 || 数 || 数 
据 || 据 || 据 || 据 数 || 数 || 需 || 应 数 | | 数 有 | | 数 || 数 || 数 | | 数 
标 || 标 || 规 || 规 据 || 据 || 求 | | 月 据 || 据 || 统 务 | | 据 || 据 || 据 || 据 
HE || E | | z | | i 管 || 输 || 接 || 使 提 || 管 || 建 rs 
制 || 监 || 制 || 监 jJ AJEA 供 || 理 || 设 理 || 合 || 构 || 析 || 护 
EJE E] E 者 || 者 || 人 || 者 者 || 者 | | 者 者 | | 者 者 | | 者 
者 || 者 || 者 || 者 
图 1.15 数据 管理 的 职责 划分 
2. 数据 管理 标准 


没有 标准 就 无 法 界定 数据 质量 的 好 坏 , 因 此 有 必要 制定 数据 标准 。 数 据 标准 的 制定 
需要 业务 部 门 、 销 售 部 门人 员 的 大 力 配 合 。 初 期 先 制定 重要 数据 (如 客户 .产品 等 ) 的 标 
准 , 之 后 不 断 丰 富 和 完善 。 数 据 标准 是 系统 建设 的 依据 ,按照 统一 的 数据 标准 进行 系统 建 
设 是 保证 数据 准确 性 和 一 致 性 的 基础 。 在 数据 管理 方面 ,企业 可 考虑 制定 如 下 的 企业 内 部 
标准 : 

。 数据 编码 一 一 数据 编码 体现 在 企业 业务 流程 的 各 个 环节 , 它 定 义 了 企业 所 有 管理 对 
象 的 唯一 编码 ,其 目的 是 实现 企业 业务 流程 的 标准 化 。 
企业 数据 模型 一 一 描述 企业 所 有 核心 数据 及 其 相互 关系 的 统一 全 局 视图 ,是 所 有 系 
统 建设 必须 遵守 的 重要 依据 。 

* 企业 数据 指标 体系 一 一 统一 企业 数据 的 指标 解释 ,保证 数据 的 一 致 性 和 准确 性 。 

明确 系统 主 数据 一 方面 利于 界定 权威 系统 从 而 制定 合理 的 数据 整合 策略 ; 另 一 方面 利 
于 IT 系统 建设 的 各 项 目 组 统筹 考虑 数据 的 采集 和 访问 。 

3. 数据 管理 流程 

数据 管理 流程 是 实施 规程 以 规范 人 和 系统 在 数据 质量 、 安 全 等 方面 的 管理 行为 ,是 在 统 
一 数据 标准 的 基础 上 ,进一步 提高 数据 质量 .保证 数据 安全 所 必须 遵循 的 行为 规程 。 如 
图 1. 16 所 示 为 一 个 完整 的 数据 管理 规程 体系 ,这 些 管理 规程 涵盖 了 数据 管理 的 全 部 工作 内 
容 , 是 做 好 数据 管理 的 依据 。 

4. 数据 服务 管理 模型 

企业 数据 服务 管理 需要 从 组 织 流程 .规范 和 技术 四 个 角度 开展 全 方位 的 企业 数据 服务 
管理 工作 ,实现 数据 生产 、 数 据 管理 和 数据 服务 的 全 面 提升 。 下 面 分 别 曾 述 数据 服务 管理 模 
型 中 的 组 织 视图 ,流程 视图 .规范 视图 和 技术 视图 ,分 别 如 图 1. 17 一 图 1. 20 所 示 。 
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1.16 数据 管理 规程 体系 


( 组 织 视图 ) 
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图 1.17 数据 服务 管理 模型 的 组 织 视图 


流程 视图 ) 
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1.18 数据 服务 管理 模型 的 流程 视图 
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数据 生产 规范 数据 管理 规范 数据 服务 规范 
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图 1. 19 数据 服务 管理 模型 的 规范 视图 
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图 1.20 数据 服务 管理 模型 的 技术 视图 
1.8.5 数据 规划 


数据 管理 薄弱 ,不 仅 影响 工作 效率 ,更 造成 大 量 资源 的 浪费 ,对 企业 的 成 本 控制 和 快速 
发 展 都 将 造成 十 分 不 利 的 影响 。 主 要 体现 在 产生 的 数据 无 法 准确 地 反映 企业 经 营 状况 ; 多 
个 业务 部 门 对 某 个 经 营 数据 负责 ,其 数据 一 致 性 、 准 确 性 无 法 保障 ; 各 业务 部 门 对 经 营 数据 
的 理解 不 一 致 ,在 彼此 沟通 时 产生 歧义 ; 无 法 对 管理 层 的 决策 过 程 提供 准确 的 数据 支持 。 
数据 规划 是 对 企业 的 业务 ,管理 活动 中 发 生 的 数据 进行 分 析 、 整 理 、 提 炼 以 描述 出 数据 
的 构成 ,数据 间 层 次 结构 、 数 据 间 相 互 关 系 , 建 立体 系 化 数据 资源 体系 的 过 程 ; 是 从 企业 数 
据 流 的 视角 对 数据 结构 进行 一 个 全 面 、 系 统 的 看 待 。 主 要 解决 “有 哪些 数据 “数据 之 间 是 
什么 关系 ”的 问题 。 规 划 后 的 数据 体系 应 该 具有 以 下 特点 : 
。 先进 性 一 一 规划 后 的 数据 体系 应 该 符合 当前 的 技术 标准 ,适应 企业 3 一 5 年 的 发 展 
需要 , 即 在 3 一 5 年 之 内 具有 先进 性 。 
。 可 扩展 性 一 一 数据 体系 必须 具有 可 扩展 性 ,根据 企业 的 需要 对 模型 进行 扩展 ,支持 
可 持续 发 展 。 
。 可 靠 性 一 一 设计 的 数据 体系 必须 准确 可 靠 .能够 保证 基于 这 些 数据 体系 的 信息 系统 
安全 可 靠 地 运行 。 
。 一 致 性 一 一 设计 的 数据 体系 在 整个 企业 范围 内 是 完全 一 致 的 ,不 能 存在 二 义 性 , 即 
在 企业 内 部 真正 达到 单一 版 本 的 事实 (A Single Version of Truth), 
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1 方法 

关于 数据 规划 的 方法 ,经 历 了 不 同 的 发 展 历程 。 最 初 是 面向 单一 应 用 系统 的 数据 规 
划 , 后 来 提出 了 基于 信息 工程 理论 的 总 体 数据 规划 ,通过 业务 调研 与 分 析 , 建 立业 务 模 
型 ,在 此 基础 上 分 析 数 据 流 向 ,进行 数据 分 析 和 数据 建 模 ,是 一 种 模型 导向 的 规划 方法 ， 
旨 在 建立 企业 信息 模型 ,作用 是 指导 应 用 开发 ,协调 数据 交换 。 它 需要 的 时 间 跨 度 非常 
长 , 短 则 三 五 个 月 ,长 则 半年 。 后 来 为 了 满足 企业 业务 管理 .销售 管理 对 数据 的 需要 , 提 
出 面向 业务 需求 的 解决 方案 。 面 向 业务 需求 的 数据 规划 思路 是 ,基于 企业 业务 管理 需 
求 ,从 企业 业务 活动 中 产生 的 报表 、 视 图 入 手 ,建立 各 级 数据 指标 体系 。 对 于 一 些 数 据 对 
象 ,区 分 数据 对 象 的 静态 属性 和 动态 属性 ,例如 一 年 的 销售 量 、 一 个 月 的 销售 量 、 一 个 季度 
的 利润 等 指标 ; 对 指标 进行 分 解 和 分 级 ,对 最 小 数据 单元 进行 归纳 形成 数据 主题 ,如 图 1. 21 
所 示 。 
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1.21 面向 业务 需求 的 数据 规划 示意 图 


这 一 思路 以 业务 需求 为 导向 ,以 业务 过 程 中 数据 表单 为 主线 分 析 构 建 数据 资源 体系 。 
在 指标 体系 的 分 析 过 程 中 ,通过 对 业务 体系 的 分 析 , 进 而 加 深 对 指标 体系 的 正确 理解 和 认 
识 。 然 后 ,形成 最 小 的 数据 单元 并 找 出 数据 的 来 源 和 数据 的 责任 来 源 , 这 样 来 源 清 楚 责任 
明确 。 在 此 基础 上 形成 最 小 的 单元 数据 主题 ,服务 于 数据 管理 。 

2. 目标 

通过 数据 规划 ,可 以 对 以 往 结构 不 合理 .元 余 、 混 乱 、 分 散 或 是 未 能 收集 整理 利用 的 数据 
进行 规范 化 的 重组 工作 ,从 而 尽 可 能 地 减少 数据 接口 ,实现 基于 高 标准 数据 环境 的 系统 集 
成 。 可 以 说 ,数据 体系 建设 的 根本 任务 ,是 在 整个 数据 范围 内 建立 统一 的 、 稳 定 的 和 规范 的 
数据 模型 。 

在 标准 化 的 基础 上 ,可 以 形成 基于 主题 的 高 水 平 数据 应 用 环境 。 在 这 样 的 数据 环境 中 ， 
数据 是 面向 业务 主题 的 ,而 不 是 面向 单 张 报表 的 ; 信息 是 共享 的 ,而 不 是 信息 私有 或 部 门 所 
有 的 ; 一 项 数据 一 次 一 处 输入 系统 ,而 不 是 多 次 多 处 输入 系统 。 数 据 规划 的 多 重 目标 如 
图 1. 22 所 示 。 

3. 主要 内 容 

数据 规划 的 主要 内 容 包括 三 个 方面 : 一 是 对 数据 指标 体系 进行 分 析 , 了解 业 务 指标 的 
构成 和 结构 ; 二 是 形成 数据 资源 体系 规划 ; 三 是 形成 数据 管理 技术 架构 规划 。 


CERES tee RR 
: NGWGTEHEUR EROR 
数据 规划 (数据 主题 ) iun 
信息 整合 .信息 交换 ， 
数据 规划 (数据 模型 | ————— [ausi ROLE 
规划 技术 架构 | 一 一 一 | 信息 收集 、 综 合 、 展 现 


E | — | 定量 管理 数据 来 源 


系 
建立 KPI 体 系 E 企业 绩效 管理 


图 1.22 数据 规划 的 多 重 目标 
指标 体系 分 析 , 包 括 业 务 与 管理 需求 分 析 、 业 务 体系 分 析 、 指 标 体系 梳理 和 指标 体系 分 
解 等 。 指 标 体系 分 析 的 思路 首先 是 基于 用 户 的 视图 和 报表 ,这 是 基础 ,继而 形成 指标 集 , 这 
时 是 没有 分 层次 的 。 然 后 对 指标 分 级 分 解 ,形成 结构 化 的 指标 集 。 如 图 1. 23 所 示 为 一 级 指 
标 分 解 后 成 为 二 级 指标 的 示例 图 。 
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图 1.23 指标 分 解 示意 图 


数据 资源 体系 的 规划 是 基于 指标 体系 分 析 形 成 的 最 小 的 数据 元 素 进 行 归 纳 形成 数据 主 
题 , 然 后 对 数据 主题 之 间 进行 关联 分 析 ,形成 一 个 整体 模型 , 它 既 包 括 一 些 静 态 的 属性 ,也 包 
含 一 些 动态 的 指标 。 

当 各 类 数据 指标 梳理 出 来 后 , 则 需要 一 个 技术 架构 支撑 。 这 部 分 工作 包括 数据 资源 能 
力 评估 ,在 此 评估 基础 上 提出 数据 需求 分 析 , 然 后 制订 总 体 架 构 、 功 能 架构 和 分 层次 技术 架 
构 。 在 技术 架构 规划 中 ,还 需要 建立 数据 与 信息 系统 的 映射 关系 和 数据 关联 分 析 , 如 
图 1.24 所 示 。 
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分 析 梳 理 这 些 影 响 数据 质量 的 各 类 问题 后 ,发现 影响 数据 仓库 的 因素 多 种 多 样 ,要 很 好 
地 控制 数据 质量 ,需要 有 效 地 管理 这 些 影响 因素 ,建立 一 套 基 于 元 数据 管理 的 数据 质量 管理 
系统 。 本 小 节 从 元 数据 分 类 和 管理 ,监控 管理 两 方面 阐述 数据 质量 管理 的 技术 方案 。 
1. 元 数据 分 类 和 管理 
1) 元 数据 分 类 
元 数据 分 为 业务 元 数据 ,技术 元 数据 和 管理 元 数据 三 大 类 ,每 一 类 元 数据 由 若干 部 分 
组 成 。 
(1) 业务 元 数据 
业务 元 数据 可 划分 为 业务 术语 、 业 务 描述 、 业 务 指标 和 业务 规则 四 个 部 分 ,其 中 业务 术 
语 、 业 务 描述 和 业务 规则 共同 完成 对 业务 相关 信息 的 事实 表述 。 数 据 质量 管理 通过 对 这 些 
业务 元 数据 的 映射 ,可 以 得 到 对 应 的 数据 质量 检查 规则 。 每 个 项 目 可 以 根据 自身 业务 需求 
对 业务 元 数据 主题 进行 扩充 ,扩充 的 元 数据 主题 必须 遵循 CWM 元 数据 扩展 规范 。 
。 业务 术语 是 一 个 名 词 或 者 名 词 短语 ,是 对 一 种 共识 的 定义 ,例如 一 个 有 效 的 账户 被 
定义 为 此 账户 有 余额 且 其 有 效 期 未 过 。 
。 业务 描述 提供 对 各 公司 各 项 主要 业务 的 统一 描述 ,这 部 分 内 容 应 与 数据 仓库 模型 的 
主题 信息 、 相 关 业 务 的 统计 指标 建立 关联 ,描述 的 内 容 包括 ， 


业务 基本 描述 。 
© 业务 管理 规定 ,包括 业务 组 织 、 业 务 流程 .资费 标准 。 
@ 业务 统计 。 


业务 描述 是 一 个 完整 的 描述 ,通过 动词 来 连接 术语 使 其 成 为 一 个 有 效 的 声明 ,例如 开通 
具体 业务 的 客户 必须 至 少 拥有 一 个 有 效 的 账户 。 
* 业务 指标 面向 业务 分 析 人 员 ,是 对 业务 关键 信息 的 解释 。 业 务 指标 的 元 数据 信息 主 
要 包括 : 指标 标识 、 指 标 名 称 、 描 述 信息 、 建 立时 间 、 所 属 部 门 、 创 建 者 、 类 别 和 数据 
来 源 等 。 


。 业务 规则 是 一 种 描述 信息 ,定义 和 约束 了 部 分 业务 逻辑 ,可 以 用 于 对 业务 逻辑 结构 
进行 验证 ,用 于 控制 或 者 影响 业务 逻辑 的 行为 。 
(2) 技术 元 数据 
以 经 营 分 析 系 统 为 例 , 技 术 元 数据 包含 关于 经 营 分 析 系 统 数据 技术 层面 的 信息 ,描述 了 
数据 源 接口 ETL ,数据 仓库 和 数据 集 市 一 级 经 营 分 析 系 统 接 口 等 子 系统 的 数据 特征 。 根 
据 经 营 分 析 系 统 的 特点 及 其 数据 质量 管理 的 具体 要 求 ,技术 元 数据 可 分 为 数据 源 接口 、 
ETL HEFE ,数据 仓库 和 数据 集 市 存储 、 分 析 应 用 、 运 行 环境 信息 、 运 行 状态 信息 和 质量 管理 
过 程 七 个 部 分 。 下 面 对 各 部 分 所 包含 的 实体 加 以 说 明 。 
© 数据 源 接口 元 数据 
经 营 分 析 系 统 的 数据 来 源 主要 是 外 部 的 操作 型 应 用 系统 ,经 营 分 析 系 统管 理 的 数据 源 
接口 元 数据 主要 是 关于 BOSS, 客服 .网管 . 智 能 网 .DSMP 彩铃 等 外 部 系统 与 经 营 分 析 系 统 
间接 口 的 相关 信息 ,包括 描述 源 系统 数据 接口 的 定义 信息 接口 数据 实体 结构 (主题 信息 、 实 
体 定义 、 实 体内 部 列 定义 、 关 键 字 、 索 引 定义 等 ) 接口 数据 实体 间 关系 。 
© ETL 过 程 元 数据 
ETL 过 程 元 数据 管理 内 容 主 要 是 ETL 规则 ,包括 源 系统 数据 到 数据 仓库 的 映射 关系 、 
ETL 程序 结构 信息 .数据 转换 和 清理 规则 等 ,主要 包括 ， 
* 接口 抽取 一 一 描述 数据 抽取 过 程 的 相关 信息 ,针对 具体 接口 主要 包括 : 
接口 抽取 条 件 一 一 接口 抽取 的 前 置 条 件 和 数据 条 件 。 
接口 抽取 周期 一 一 日 、 月 等 。 
接口 抽取 时 间 一 一 周期 内 的 抽取 时 间 。 
接口 抽取 方法 一 一 增 量 、 全 量 等 。 
。 数据 清洗 、 转 换 ,装载 一 一 描述 接口 数据 到 仓库 数据 的 处 理 过 程 信息 ,包括 源 系统 数 
据 到 数据 仓库 的 映射 关系 、ETL 程序 结构 信息 ,数据 转 换 和 清理 规则 等 。 
@ 数据 仓库 和 数据 集 市 存储 元 数据 
数据 仓库 存储 涉及 ODS、 仓 库 底 层 数据 和 集 市 数据 等 基本 信息 ,以 及 数据 流 处 理 逻 辑 
相关 信息 的 提取 ,具体 包括 : 
。 数据 仓库 逻辑 模型 
人 逻辑 模型 是 企业 元 数据 的 重要 组 成 部 分 ,其 实现 方式 主要 是 将 建 模 工具 (如 ERWIN) 
中 的 模型 信息 纳入 元 数据 管理 中 。 
。 数据 存储 结构 信息 
数据 存储 结构 反映 数据 仓库 的 物理 实体 信息 。 数 据 仓库 内 部 的 结构 数据 管理 内 容 繁 
杂 , 主 要 包括 ODS 和 数据 仓库 的 数据 结构 ,数据 定义 、 物 理 数 据 模 型 结构 、 程 序 代 码 描述 、 数 
据 库 目录 以 及 文件 规划 等 。 其 中 ,数据 库 目录 包括 需 纳入 管理 的 表 、 关 系 以 及 索引 和 视图 的 
定义 等 。 
。 数据 流 及 其 处 理 逻 辑 
这 部 分 内 容 描述 整个 数据 仓库 中 数据 的 流向 .数据 的 处 理 逻辑 .数据 仓库 各 应 用 程序 模 
块 接口 等 系统 全 局 性 信息 。 数 据 流 向 和 数据 处 理 逻辑 信息 是 进行 系统 开发 维护、 升级 前 和 
数据 变更 前 的 影响 分 析 的 重要 信息 源 。 
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e 数据 生命 周期 信息 的 存储 和 检索 
数据 生命 周期 主要 记录 数据 在 不 同 生命 周期 所 存放 的 位 置 。 通 过 元 数据 管理 系统 对 不 


同类 型 以 及 不 同 生 命 周 期 的 数据 进行 有 效 管理 ,支持 对 处 于 生命 周期 不 同 阶段 的 数据 进行 
信息 检索 。 


© 分 析 应 用 元 数据 
在 数据 仓库 或 数据 集 市 的 基础 上 ,经 营 分 析 系 统 提供 了 KPI、OLAP. 综 合 报表 、 数 据 挖 


据 、 一 级 经 营 分 析 系 统 接 口 等 应 用 ,分 析 应 用 元 数据 主要 包括 : 


。 指标 技术 定义 信息 一 一 包含 指标 定义 ,对 应 维度 定义 .指标 统计 口径 和 指标 关系 等 信息 。 
。 多 维 数据 信息 一 一 主要 指 对 多 维 数据 相关 信息 的 提取 ,主要 包括 : 
。 多 维 主 题 基本 信息 一 一 包含 主题 与 指标 、 维 度 等 的 关系 ; 
。 多 维 数据 库 信息 一 一 鉴于 主流 的 多 维 数据 库 都 支持 CWM 标准 ,针对 系统 的 建 
设 情况 ,可 以 考虑 选用 元 数据 工具 进行 相关 信息 的 提取 。 

t 一 级 经 营 分 析 系 统 接口 一 一 作为 数据 分 发 过 程 与 ETL 处 理 过 程 对 应 ,主要 包括 一 
级 经 营 分 析 接 口 的 定义 、 标 准 代码 定义 、 数 据 转换 规则 以 及 其 他 涉及 一 级 经 营 分 析 
系统 接口 数据 生成 上 传 的 元 数据 信息 。 

。 数 据 挖掘 信息 。 

。 应 用 使 用 状况 信息 一 一 主要 记录 各 业务 应 用 的 使 用 频次 ,使 用 人 数 等 信息 。 

© 运行 环境 信息 元 数据 

描述 经 营 分 析 系 统 运 行 环境 的 相关 信息 ,主要 包括 : 

* 任务 调度 信息 一 一 经 营 分 析 系 统 处 理 涉及 多 个 环节 的 大 量 任务 ,通常 由 一 个 统一 

的 任务 调度 系统 集中 控制 这 些 任 务 的 执行 ,获取 这 些 任务 的 相关 信息 对 于 了 解 和 

优化 系统 至 关 重 要 。 主 要 提取 信息 包括 任务 基本 信息 、 任 务 依赖 信息 和 任务 执行 

信息 等 。 

系统 运行 环境 信息 一 一 包括 经 营 分 析 系 统 相 关 的 主机 信息 ,操作 系统 信息 、 文 件 系 

统 信息 、 系 统 处 理 目 录 信 息 .数据 库 信 息 和 表 空 间 信息 等 。 

© 运行 状态 信息 元 数据 

运行 状态 信息 库 是 在 数据 质量 检查 点 上 产生 的 ,描述 系统 运行 情况 的 各 种 度量 数据 。 主 


要 包括 数据 量 ,数据 处 理 周期 数据 处 理 过 程 运行 情况 等 。 系 统 运行 状态 信息 包括 以 下 几 类 : 


。 源 数据 状况 一 一 主要 包括 文件 传送 完整 状况 ,文件 记录 合法 状况 ,文件 传送 及 时 状 
BU ,文件 加 载 正确 状况 等 。 

ETL 运行 状况 一 一 主要 包括 作业 运行 成 功 状况 、 作 业 失 败 信息 、 抽 取 和 变换 数据 
量 、 加 载 数 据 量 及 正确 状况 、 作 业 调 度 和 操作 状况 等 。 

。 数据 仓库 运行 状况 一 一 主要 包括 实体 主键 取 值 合 法 状况 ,实体 属性 的 完整 状况 、 外 
键 取 值 和 引用 合法 状况 、 属 性 合法 状况 .数据 汇总 状况 等 。 

数据 集 市 运行 状况 一 一 主要 包括 实体 主键 取 值 合法 状况 、 实 体 属 性 的 完整 状况 、 外 
键 取 值 和 引用 合法 状况 、 属 性 合法 状况 、 实 体 合 法 状况 (属于 某 地 市 或 部 门 ) ,数据 汇 
总 状况 等 。 

前 端 运行 状况 一 一 主要 包括 OLAP 加 载 状况 .OLAP 运行 状况 `.OLAP 存储 情况 、 
应 用 运行 合法 和 成 功 状况 .应 用 满意 状况 等 。 


(D 质量 管理 过 程 元 数据 
质量 管理 过 程 元 数据 主要 是 根据 数据 质量 管理 的 要 求 ,为 支撑 数据 质量 检查 的 相关 功 
能 ,从 监控 经 营 分 析 数 据 及 系统 运行 情况 角度 ,抽取 的 数据 质量 检查 方法 和 标准 。 
质量 管理 过 程 元 数据 的 规则 有 两 个 来 源 : 一 个 来 源 是 系统 各 个 处 理 环节 的 技术 元 数 
据 , 反 映 的 是 系统 技术 层面 的 处 理 情 况 , 如 数据 量 和 指标 值 是 否 合理 ,处 理 过 程 应 该 在 什么 
周期 内 什么 时 间 段 内 完成 是 正常 ,主机 资源 、 表 空间 文件 系统 的 使 用 应 该 控制 在 什么 样 的 
阔 值 下 系统 处 理 不 会 有 问题 ; 另 一 个 来 源 是 业务 规则 、 指 标 口 径 等 业务 元 数据 ,通常 会 把 业 
务 规则 的 信息 转化 成 技术 化 的 规则 、 算 法 和 度量 标准 ,如 指标 间 的 稽核 关系 ,而 类 似 指 标 合 
理性 的 度量 标准 , 则 会 根据 业务 发 展 情况 而 不 断 变 化 。 主 要 包括 : 
。 规 则 库 一 一 规则 是 数据 质量 检查 的 具体 标准 ,主要 包括 数据 的 约束 规则 和 合理 性 规 
则 ,以 及 检查 数据 处 理 过 程 及 处 理 环境 是 否 正 常 的 规则 等 。 规 则 分 为 三 类 , 即 约束 
规则 、 计 算 规则 和 条 件 规 则 。 
第 一 ,约束 规则 描述 了 一 种 条 件 必须 为 真 或 假 的 强制 规则 。 这 种 约束 可 以 是 结构 化 
(Structural) 约 束 ,也 可 以 是 行为 (Behavioral) 约 束 。 其 中 : 
结构 化 约束 一 一 当 创 建 术语 或 者 改变 术语 之 间 的 关系 时 ,结构 化 约束 能 够 保证 术语 的 
完整 性 。 
行为 约束 一 一 典型 地 被 定义 为 “前 置 条 件 ”? 和 * 后 置 条 件 ”。 只 有 在 符合 “前 置 条 件 ” 的 情 
况 下 ,操作 才能 够 正确 地 执行 ;“ 后 置 条 件 ” 保 证 了 操作 结果 的 正确 性 光 后 置 条 件 表 示 该 行 
为 是 否 满足 了 其 预期 的 结果 。 例 如 ,客户 在 开户 时 余额 为 0, 在 能 够 使 用 移动 业务 之 前 , 必 
须 先 充值 ,这 里 前 置 条 件 就 是 必须 先 充值 ,而 后 置 条 件 是 指 所 办 理 的 业务 是 否 成 功 办 理 。 
第 二 ,计算 规则 描述 计算 关系 ,例如 ,月 末 余额 = 上 月 末 余 额 十 本 月 充值 金额 一 本 月 消 
费 金额 。 
第 三 ,条 件 规则 描述 当 条 件 成 立时 ,触发 相关 的 事件 或 事务 ,例如 ,预付 费 客户 的 账户 余 
额 小 于 0, 则 对 其 实施 停机 操作 。 
。 算法 库 一 一 主要 是 指 支撑 上 述 检查 规则 所 需要 的 基本 算法 的 集合 ,结合 具体 的 规则 
由 数据 质量 检查 相关 功能 调用 。 
。 度量 信息 一 一 度量 信息 是 数据 质量 检查 的 基本 依据 , 它 反映 了 数据 质量 的 衡量 标 
准 ,也 是 数据 质量 管理 系统 技术 元 数据 的 一 个 重要 组 成 部 分 。 
度量 信息 是 经 验 的 积累 ,需要 在 数据 质量 不 断 建设 的 过 程 中 逐步 精确 化 , 随 着 衡量 标准 
的 不 断 细 化 和 精确 ,经 营 分 析 系 统 数据 质量 也 会 不 断 提 高 。 
(3) 管理 元 数据 
管理 元 数据 主要 是 指 涉 及 开发 . 运 维 管理 各 方面 的 基本 信息 ,强烈 建议 对 管理 元 数据 进 
行 存储 ,在 此 基础 上 对 系统 需求 开发 和 日 常 运 维 管理 流程 提供 IT 化 支撑 ,从 管理 流程 角度 
对 数据 质量 提供 保证 。 管 理 元 数据 主要 包括 : 
。 管理 流程 定义 一 一 指 需求 开发 . 运 维 管理 流程 及 其 具体 步骤 .输入 输出 和 参与 角色 
的 描述 ; 
。 角色 及 职责 定义 一 一 指 参 与 需求 开发 . 运 维 管理 流程 的 角色 及 其 具体 承担 职责 的 
描述 ; 
。 人 员 组 织 信息 及 工作 内 容 分 配 一 一 指 需求 开发 和 系统 运 维 过 程 中 各 参与 人 员 承 担 
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的 角色 及 具体 负责 的 工作 内 容 描 述 ,例如 具体 某 个 需求 开发 由 谁 牵头 负责 ,ETL AE 
个 加 载 转换 过 程 由 谁 负责 维护 等 系统 访问 情况 信息 。 

2) 元 数据 管理 

数据 质量 管理 系统 的 元 数据 作为 基本 支撑 ,方便 用 户 对 系统 的 理解 ,并 在 数据 质量 出 现 
问题 时 ,便于 问题 的 定位 。 

(1) 元 数据 维护 

元 数据 维护 提供 对 元 数据 的 增加 、 删 除 和 修改 等 基本 操作 。 另 外 ,还 应 支持 实体 、 实 体 
间 关 系 的 建 模 ,数据 处 理 过 程 的 描述 等 功能 。 对 于 元 数据 的 增 量 维护 ,要 求 能 保留 历史 的 版 
本 信息 。 

元 数据 的 维护 操作 是 原子 操作 ,这 些 原子 操作 的 实现 需要 借助 于 元 数据 管理 平台 提供 
的 JMI 接口 或 者 CORBA IDL 接口 完成 。 

在 实施 元 数据 维护 的 过 程 中 ,需要 对 这 部 分 操作 的 过 程 进 行 一 定 约束 和 限制 。 元 数据 
定义 为 如 下 四 种 状态 。 

(D 审核 状态 

对 于 需要 进行 维护 的 元 数据 ,首先 进入 审核 状态 ,从 而 等 待 审核 人 员 的 核查 ,确定 该 元 
数据 是 否 需要 进行 修改 。 

Q 公示 状态 

审核 通过 后 ,进入 公示 状态 , 即 处 于 对 元 数据 定义 征求 意见 的 状态 ,没有 最 后 定稿 ,公示 
状态 有 一 定 的 期 限 要 求 。 

@ 发 布 状态 

公示 状态 期 限 的 限制 到 期 后 ,根据 在 公示 状态 期 间 回 馈 的 意见 ,给 出 元 数据 维护 的 准确 
方案 ,进入 发 布 状态 。 

@ 维护 状态 

用 户 提交 修改 元 数据 请 求 后 ,相关 元 数据 进入 维护 状态 ,对 相关 元 数据 的 维护 需要 保留 
其 历史 版 本 信息 。 

(2) 元 数据 导入 /导出 

元 数据 导入 /导出 实现 元 数据 的 自动 加 载 、 批 量 导入 /导出 和 模板 化 导入 /导出 ,是 元 数 
据 维护 手工 操作 的 重要 补充 。 

© 自动 加 载 

自动 加 载 能 够 提供 自动 方式 快速 地 从 各 种 软件 或 存储 (如 数据 库 .OLAP 软件 .前端 展 
现 工具 ) 中 提取 元 数据 ,并 存储 到 元 数据 库 中 。 这 种 方式 通常 采用 API 或 Web 服务 直接 连 
接 各 软件 的 元 数据 库 。 

O 批量 导入 /导出 

批量 导入 /导出 功能 将 按 XMI 文档 格式 组 织 的 元 数据 批量 导入 元 数据 库 , 或 者 将 元 数 
据 库 中 的 指定 部 分 导出 为 XMI 文档 。 系 统 对 导入 /导出 过 程 进行 日 志 记 录 。 元 数据 的 
XMI 文档 中 描述 元 数据 内 容 、 属 性 ,以 及 对 新 增 、 修 改 、 删 除 动作 的 标记 。 用 户 通过 执行 批 
处 理 命令 或 屏幕 菜 单 选择 批量 导入 /导出 元 数据 ,并 支持 即时 调用 或 后 台 定时 自动 执行 。 

© 模板 化 导入 /导出 

模板 化 导入 /导出 是 为 非 结构 化 、 无 法 自动 抽取 或 非 XMI 文档 的 元 数据 提供 的 批量 导 


入 /导出 支撑 功能 。 通 常 采用 预定 义 模板 格式 的 元 数据 描述 文档 ,整理 出 元 数据 的 基本 信息 
文档 ,通过 该 功能 导入 系统 ,并 自动 转化 为 元 数据 存储 ; 同样 也 支持 把 元 数据 信息 导出 到 预 
定义 格式 的 文档 中 ,并 提供 下 载 ,方便 交流 。 
对 于 不 满足 CWM 标准 的 元 数据 (如 大 部 分 指标 数据 等 ) ,通常 需要 借助 XMI 来 定义 相 
应 的 模板 。 该 模板 满足 CWM 标准 ,可 以 利用 编写 相应 的 程序 实现 这 部 分 元 数据 的 导入 和 
导出 。 
(3) 同步 检查 
同步 检查 主要 是 指定 期 从 系统 中 抽取 元 数据 ,并 与 元 数据 库 的 对 应 信息 进行 比较 ,及 时 
发 现 系统 的 应 用 变更 ,保证 元 数据 的 及 时 同步 更 新 。 
从 系统 中 抽取 元 数据 主要 分 为 两 类 : 自动 抽取 和 人 工 抽 取 。 因 此 ,有 如 下 两 类 同步 检 
查 方法 : 
O 自动 同步 检查 
对 于 需要 检查 的 元 数据 ,利用 API 或 CORBA IDL 接口 对 系统 中 的 元 数据 进行 直接 查 
询 和 访问 ,获得 相应 的 元 数据 ,然后 进行 比较 ,从 而 确定 相应 的 元 数据 是 否 保 持 同 步 。 
@ 人 工 同步 检查 
对 无 法 进行 自动 抽取 检查 的 元 数据 需要 人 工 在 源 系统 与 元 数据 库 之 间 进 行 比较 ,确定 
是 否 保持 一 致 。 
在 同步 检查 过 程 中 ,值得 注意 的 是 : 
CD 同步 检查 时 机 
同步 检查 时 机 分 为 实时 同步 检查 和 定期 同步 检查 两 类 。 实 时 同步 检查 适用 于 可 以 自动 
抽取 的 元 数据 ,触发 检查 的 时 机 是 源 系统 中 的 元 数据 发 生 了 变更 或 是 相应 系统 中 的 元 数据 
发 生 了 改变 ; 定期 同步 检查 适用 于 两 种 情况 , 即 当 用 户 手工 修改 源 数据 系统 或 者 是 元 数据 
库 时 , 则 需要 对 元 数据 进行 同步 检查 ; 或 者 对 于 整个 数据 质量 管理 系统 而 言 ,按照 某 个 特定 
的 周期 (1 天 或 者 1 周 等 ) 进 行 元 数据 同步 检查 。 
C 同步 检查 度量 
元 数据 一 一 同步 检查 的 度量 包括 及 时 率 、 完 整 率 和 正确 率 三 个 方面 。 
* 及 时 率 一 一 指定 类 型 的 元 数据 在 某 一 抽取 检查 周期 内 按 一 定时 间 要 求 抽取 的 元 数 
据 项 和 应 抽取 项 的 比率 。 

。 完整 率 一 一 指定 类 型 的 元 数据 在 某 一 抽取 检查 周期 内 抽取 的 元 数据 项 和 应 抽取 项 
的 比率 。 

。 正确 率 一 一 指定 类 型 的 元 数据 在 某 一 抽取 检查 周期 内 抽取 比 对 无 误 的 元 数据 项 和 
应 抽取 项 的 比率 。 

© 同步 检查 过 程 

在 同步 检查 发 现 差异 时 ,原则 上 不 能 直接 修改 元 数据 ,而 是 给 出 各 类 元 数据 的 差异 报 
告 , 并 由 数据 质量 管理 员 确 认 后 ,利用 元 数据 维护 工具 进行 元 数据 的 更 新 。 

(4) 实体 查询 

实体 查询 是 指 对 元 数据 库 中 的 数据 实体 基本 信息 的 查询 功能 ,通过 该 功能 可 以 查询 数 
据 库 表 、 维 表 、 指 标 及 其 他 纳入 管理 实体 的 基本 信息 ,查询 的 信息 按 处 理 的 层次 和 业务 主题 
进行 组 织 ,实体 查询 返回 实体 及 其 所 属 的 相关 信息 。 实 体 查询 要 求 能 支持 对 历史 版 本 信息 
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的 查询 ,以 了 解 具体 实体 的 历史 变更 情况 。 

O 过 程 查询 

过 程 查询 是 针对 具体 的 数据 转换 、 汇 总 等 处 理 过 程 ,查询 其 具体 用 途 、 参 与 的 输入 ,输出 
实体 等 详细 信息 ,从 而 帮助 理解 数据 处 理 过 程 。 过 程 查询 要 求 能 支持 对 历史 版 本 信息 的 查 
询 , 以 了 解 处 理 过 程 的 历史 变更 情况 。 

CWM 标准 中 ,有 专门 的 仓库 过 程 (Warehouse Process) 和 转换 过 程 (Transformation 
Process) 实 体 , 过 程 查询 可 以 直接 返回 过 程 本 身 的 详细 信息 。 

过 程 查 询 还 可 以 基于 过 程 实体 本 身 包 含 的 关联 信息 ,得 到 与 其 关联 的 实体 信息 。 

@ 影响 分 析 

影响 分 析 (Impact Analysis ,也 称 冲 突 分 析 ) 是 指 从 某 一 实体 出 发 ,寻找 依赖 该 实体 的 处 
理 过 程 实体 或 其 他 实体 。 如 果 需 要 可 以 采用 递归 方式 寻找 所 有 的 依赖 过 程 实体 或 其 他 实 
体 。 该 功能 支持 当 某 些 实体 发 生变 化 或 者 需要 修改 时 ,进行 影响 实体 范围 的 评估 。 

影响 分 析 应 能 够 以 图 形 的 方式 展现 所 有 实体 和 关联 关系 。 

@ 血统 分 析 

血统 分 析 (Lineage Analysis, 也 称 血 缘分 析 ) 是 指 从 某 一 实体 出 发 , 往 回 追溯 其 处 理 过 
程 ,直到 数据 输入 的 源头 , 即 源 系统 接口 数据 。 对 于 不 同类 型 的 实体 ,其 涉及 的 转换 过 程 可 
能 有 不 同类 型 ,例如 : 对 于 底层 仓库 实体 ,涉及 的 可 能 是 ETL 处 理 过 程 ; 而 对 于 仓库 汇总 
表 , 可 能 既 涉及 ETL 处 理 过 程 ,又 涉及 仓库 汇总 处 理 过 程 ; 而 对 于 指标 , 则 除了 上 面 的 处 理 
过 程 ,还 涉及 指标 生成 处 理 过 程 。 除 了 数据 接口 实体 由 源 系统 提供 ,作为 系统 的 数据 输入 ， 
其 他 的 数据 实体 都 经 过 了 一 个 或 多 个 不 同类 型 的 处 理 过 程 。 血 统 分析 正 是 提供 了 这 样 一 种 
功能 ,可 以 让 使 用 者 根据 需要 了 解 不 同 的 处 理 过 程 ,每 个 处 理 过 程 具 体 做 什么 ,需要 什么 样 
的 输入 ,又 产生 了 什么 样 的 输出 。 

为 了 实现 血统 分 析 , 对 于 任何 指定 的 实体 ,首先 获得 该 实体 的 所 有 前 驱 实 体 ,然后 对 这 
些 前 驱 实 体 递归 地 获得 各 自 的 前 驱 实 体 , 结 束 条 件 是 所 有 实体 到 达 数 据 源 接口 或 者 是 实体 
没有 相应 的 前 驱 实 体 。 血 统 分 析 应 能 够 以 图 形 的 方式 展现 所 有 实体 和 处 理 过 程 。 

@ 实体 关联 度 分 析 

实体 关联 度 分 析 是 从 某 一 实体 关联 的 其 他 实体 和 其 参与 的 处 理 过 程 两 个 角度 来 查看 具 
体 数 据 的 使 用 情况 ,从 而 形成 一 张 关联 所 参与 数据 处 理 过 程 的 网 络 ,进一步 可 以 了 解 该 实体 
的 重要 程度 。 该 功能 可 以 用 来 支撑 需求 变更 影响 评估 的 应 用 。 

对 于 关系 数据 表 , 可 以 分 析 与 某 个 表 有 关 的 实体 或 处 理 过 程 ,查看 具体 数据 的 使 用 情 
况 , 从 而 判断 该 表 的 重要 程度 。 该 功能 有 助 于 寻找 数据 库 中 关键 表 和 元 余 表 , 为 系统 调 优 提 
供 支持 。 

在 CWM 模型 的 每 个 实体 中 ,可 以 有 一 个 单独 的 对 象 (或 者 类 ) 函 数 , 它 可 以 在 实体 关联 
信息 的 支持 下 ,返回 该 实体 所 关联 的 所 有 实体 和 参与 的 所 有 过 程 。 

C 实体 差异 分 析 

实体 差异 分 析 是 对 不 同 实体 的 元 数据 进行 检查 ,用 图 形 和 表格 的 形式 展现 它们 之 间 的 
差异 ,包括 名 字 、 属 性 及 数据 血统 、 对 系统 其 他 部 分 影响 的 差异 等 。 

系统 中 存在 许多 类 似 的 实体 。 这 些 实体 (如 数据 表 ) 可 能 只 在 名 字 上 或 者 是 在 属性 中 存 
在 微小 的 差异 ,其 至 有 部 分 属性 名 字 都 相同 ,但 处 于 不 同 的 应 用 中 。 由 于 各 种 原因 ,这 些微 


小 的 差异 直接 影响 了 数据 统计 结果 ,需要 清楚 了 解 这 些 差异 。 该 功能 有 助 于 进一步 统一 统 
计 口 径 , 评 佑 近似 实体 的 差异 。 

(5) 版 本 管理 

版 本 管理 是 对 不 同时 期 进入 元 数据 库 的 同一 实体 的 元 数据 进行 管理 。 基 本 功能 是 能 够 
显示 同一 实体 的 元 数据 的 修改 历史 。 另 外 还 提供 版 本 差异 分 析 、 版 本 变更 分 析 等 。 

变更 通知 是 当 元 数据 发 生 改 变 时 ,系统 自动 发 信息 (邮件 ,短信 ?给 订阅 用 户 。 用 户 可 以 
主动 订阅 自己 关心 的 元 数据 ,帮助 了 解 与 自身 工作 相关 的 业务 系统 变更 情况 ,提高 工作 的 主 
动 性 。 

2. 监控 管理 

在 数据 质量 管理 系统 中 ,数据 质量 监控 是 基础 功能 。 数 据 质量 监控 实时 采集 数据 处 理 
过 程 的 各 个 质量 监控 点 上 的 质量 信息 ,执行 数据 质量 监控 流程 ,进行 数据 稽核 诊断 ,然后 直 
观 展现 检查 结果 。 数 据 质量 管理 人 员 可 根据 告警 信息 ,采取 相应 的 质量 控制 措施 。 最 后 ,还 
应 评估 总 结 本 次 数据 质量 监控 活动 的 有 效 性 和 及 时 性 ,以 利于 以 后 数据 质量 管理 工作 的 

在 数据 质量 监控 中 对 质量 问题 的 监控 ,诊断 和 处 理 结果 应 整理 形成 质量 问题 处 理 案例 ， 
并 记录 到 知识 库 中 ,以 便 进行 知识 共享 。 

数据 质量 监控 流程 是 数据 质量 监控 模块 的 重要 组 成 部 分 ,其 监控 流程 如 图 1. 25 
Bi s 

数据 质量 监控 流程 包括 采集 ,检查 ,报告 .处 理 和 总 结 五 个 主要 环节 。 
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图 1.25 数据 质量 监控 流程 


1) 采集 

数据 质量 信息 采集 需要 注意 两 方面 的 问题 ,一 方面 尽量 将 信息 采集 点 前 移 ,将 信息 采集 
点 前 移 到 省 级 经 营 分 析 系 统 与 BOSS 等 外 部 业务 系统 的 接口 上 ,及 时 发 现 数据 传输 中 的 问 
题 ,不 但 可 以 保障 省 级 经 营 分 析 系 统 的 数据 质量 ,同时 也 可 进一步 保障 一 级 经 营 分 析 系 统 的 
数据 质量 ; 另 一 方面 信息 采集 点 覆盖 数据 处 理 的 主要 过 程 ,经 营 分 析 系 统 的 数据 处 理 包含 
多 个 过 程 , 要 求 在 主要 过 程 中 部 署 信息 采集 点 ,支持 对 数据 质量 的 全 局 监控 。 

经 营 分 析 系 统 数 据 处 理 包 含 多 个 过 程 ,如 外 部 业务 系统 接口 传输 、ETL、 数 据 仓库 处 
理 \ 数 据 集 市 处 理 , 一 级 经 营 分 析 系 统 接口 传输 和 前 端 应 用 展示 等 。 各 个 主要 环节 均 应 根据 
实际 情况 设置 信息 采集 点 ,如 图 1. 26 所 示 。 

根据 已 有 系统 的 实际 情况 ,以 及 具体 的 监控 需求 和 配置 .信息 采集 点 可 以 采集 以 下 类 型 
的 信息 用 于 数据 质量 检查 : 
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图 1.26 经 营 分 析 系 统 信息 采集 点 分 布 图 
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。 数据 处 理 日 志 

。 部 分 数据 内 容 

。 校 验 文件 

。 其 他 

2) 检查 

数据 移 核 是 数据 质量 检查 的 基本 功能 ,是 根据 元 数据 库 中 预先 配置 的 规则 、 算 法 和 质量 
检查 度量 ,从 数据 的 正确 性 和 合理 性 等 多 角度 进行 检查 ,以 及 时 发 现 数据 质量 问题 。 以 经 营 
分 析 系 统 为 例 ,数据 稽核 包含 : 

(1) 接口 文件 级 检查 

接口 数据 是 经 营 分 析 系 统 数据 的 源头 ,接口 数据 质量 问题 的 改进 是 经 营 分 析 系 统 数据 
达到 较 高 的 数据 质量 的 最 基本 保障 。 对 于 每 个 到 达 的 源 数据 文件 ,数据 质量 检查 环节 首先 
进行 的 是 文件 级 检查 。 文 件 级 检查 主要 包括 : 

。 文件 传送 及 时 率 

。 文件 传送 完整 率 

。 文 件 记 录 合法 率 

。 文 件 加 载 正 确 率 

此 外 ,文件 级 检查 还 需 做 以 下 方面 的 检查 : 

。 校 验 文件 名 称 是 否 正确 

* 校 验 文件 是 否 可 以 正常 打开 

。 接口 数据 文件 名 称 是 否 正确 

。 接口 数据 文件 是 否 存 在 

。 接口 数据 文件 是 否 可 以 正常 打开 

。 接口 数据 文件 记录 总 长 度 是 否 与 接口 规范 中 的 总 长 度 一 致 

。 接口 数据 文件 大 小 是 否 与 校 验 文件 中 大 小 一 致 

。 接口 数据 文件 数据 日 期 是 否 与 校 验 文件 中 数据 日 期 一 致 

(2) 仓库 数据 检查 

仓库 数据 检查 从 仓库 模型 约束 、 实 体 属性 、 实 体 关系 和 实体 业务 特征 等 角度 ,根据 预定 
义 规则 ,检查 数据 合理 性 ,及 早 发 现 异常 ,保证 仓库 对 分 析 、 报 表 等 所 提供 数据 的 可 用 性 与 正 
确 性 。 主 要 包括 : 
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。 实体 主键 取 值 合法 性 一 一 对 于 数据 仓库 中 的 表 而 言 ,主键 是 记录 的 唯一 标识 ,主键 
上 不 允许 出 现 重复 数据 。 主 键 检查 主要 是 检查 主键 字段 的 值 是 否 唯一 。 

。 外 键 检查 一 一 检查 是 否 满足 引用 完整 性 的 规则 。 

。 值 域 检 查 一 一 检查 特定 字段 的 取 值 是 否 落 在 预定 的 取 值 范围 之 内 。 

。 编码 规范 检查 一 一 数据 仓库 中 ,对 于 一 些 字 段 值 往往 有 一 些 特定 的 编码 ,编码 规范 
检查 按照 检查 规则 配置 中 的 编码 规则 进行 检查 。 

。 实体 关键 属性 的 完整 率 一 一 实体 关键 属性 需要 填充 信息 ,不 可 为 空 。 

。 属性 合法 性 一 一 实体 属性 的 取 值 在 语法 和 语义 上 均 应 符合 业务 逻辑 。 

(3) 关键 指标 检查 

经 营 分 析 系统 需要 进行 检查 的 指标 主要 分 布 在 经 营 分 析 系 统 的 KPI.OLAP、 报 表 和 一 


级 经 营 分 析 系 统 接口 等 应 用 中 。 目 前 系统 主要 关注 的 指标 类 型 如 下 : 


。 客户 分 析 类 指标 

。 业务 量 类 指标 

。 收入 类 指标 

。 大 客户 类 指标 

。 合作 服务 类 指标 

。 市场 竞争 类 指标 

。 服务 类 指标 

主要 的 检查 方法 分 为 : 

* 数值 检查 一 一 主要 通过 对 单个 指标 值 的 监控 来 发 现 数据 的 异常 .突变 等 情况 。 通 过 
对 指标 与 阔 值 上 下 限 的 比较 进行 检查 。 适 用 变化 趋势 平稳 的 业务 关键 指标 ,对 于 波 
动 变化 较 大 的 业务 数据 ,不 建议 采用 此 种 方法 检查 。 

。 波动 检查 一 一 通过 对 单个 指标 值 一 段 时间 内 的 数值 变化 情况 来 检查 数据 的 波动 、 变 
化 情况 。 对 于 系统 内 的 指标 ,分 为 月 指标 和 日 指标 。 其 中 ,月 指标 支持 与 上 月 比较 ， 
日 指标 可 以 与 前 日 、 上 周 和 上 月 进行 波动 比较 。 通 过 对 指标 不 同 周 期 之 间 的 增 减 幅 
度 与 阔 值 范围 上 下 限 的 比较 进行 检查 。 阔 值 范围 上 下 限 是 一 个 数值 区 间 ,一 般 在 
一 1 一 1 之 间 取 值 。 适 用 于 主要 关注 的 业务 发 展 指标 。 

。 扩展 检查 一 一 通过 对 两 个 指标 (也 可 以 是 一 个 指标 的 两 个 周期 ) 按 某 几 个 维度 展开 
后 的 增 减 幅度 来 发 现 数 据 的 波动 、 变 化 情况 。 该 检查 的 两 个 指标 分 别 命 名 为 左 指标 
和 右 指标 , 即 第 一 个 选择 的 为 左 指标 ,后 选 的 为 右 指 标 。 通 过 对 左右 指标 不 同 维度 
切面 的 增 减 幅度 与 冰 值 范围 上 下 限 的 比较 进行 检查 。 阔 值 范 围 上 下 限 是 一 个 数值 
区 间 ,一 般 在 一 1 一 1 之 间 取 值 。 适 用 于 需要 进行 维度 细 分 检查 的 指标 ,如 检查 某 项 
业务 在 省 内 各 地 市 发 展 的 一 致 性 ,相关 用 户 数 和 收入 是 否 同 增 同 减 等 。 

。 比较 检查 一 一 通过 对 若干 个 指标 值 的 简单 四 则 运算 (加 \ 减 、 乘 、 除 ) 来 检验 各 个 指标 
间 潜 在 的 平衡 或 其 他 比较 关系 。 在 这 一 简单 四 则 运算 中 ,可 以 带 入 常量 运算 ,支持 
括号 ,适用 于 需要 进行 相关 性 检查 的 指标 。 

(4) 处 理 过 程 检查 

处 理 过 程 检查 是 指 根据 预先 配置 的 规则 和 质量 检查 度量 ,对 数据 处 理 过 程 的 稽核 检查 。 

点 关注 处 理 过 程 的 及 时 性 , 即 根据 预先 设 定 的 时 间 范 围 ,从 经 营 分 析 系 统 各 数据 处 理 环节 
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的 处 理 效率 角度 进行 检查 ,得 出 处 理 超出 规定 时 间 范 围 的 接口 及 其 具体 的 处 理 环节 。 处 理 
环节 包括 接口 数据 的 抽取 、 传 输 清洗 转 换 、 加 载 、 集 市 数据 汇总 生成 和 应 用 展现 等 。 

数据 采集 点 和 质量 检查 点 集成 在 一 起 ,在 数据 采集 的 本 地 直接 进行 质量 检查 ,分 析 其 中 
存在 的 数据 质量 问题 ,如 图 1. 27 所 示 。 
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1.27 数据 质量 检查 点 的 部 署 图 


数据 质量 检查 点 进行 检查 操作 的 依据 是 元 数据 库 中 预先 配置 的 考核 标准 、 规 则 、 算 法 和 
质量 检查 度量 等 。 检 查 点 需要 与 元 数据 库 交 互 ,获取 相关 检查 规则 。 检 查 点 与 元 数据 库 的 
交互 方式 可 以 根据 实际 情况 参考 以 下 方案 : 
。 检查 点 主动 读 取 元 数据 库 一 一 检查 点 根据 自身 的 配置 信息 ,主动 访问 并 获取 元 数据 
库 中 与 本 检查 点 相关 的 规则 数据 。 

。 利用 管理 配置 功能 远程 配置 检查 点 一 一 数据 质量 监控 模块 具有 管理 配置 功能 ,可 以 
提供 集成 的 系统 管理 配置 界面 ,集中 管理 元 数据 库 和 分 布 式 检查 点 ,并 将 适当 的 检 
查 规则 分 配 到 特定 的 检查 点 上 ,实现 检查 点 的 远程 配置 。 

为 了 提高 系统 性 能 ,检查 点 应 对 检查 规则 进行 本 地 缓存 ,并 根据 配置 信息 ,以 定时 或 事 
件 触发 的 方式 更 新 本 地 缓存 。 

3) 报告 

检查 结果 报告 环节 根据 数据 质量 检查 环节 的 结果 信息 ,以 规范 的 格式 和 特定 的 展现 方 
式 向 数据 质量 管理 人 员 报 告 数据 质量 情况 。 可 以 根据 系统 配置 .分布 式 或 集中 式 检查 点 从 不 
同 角度 生成 不 同类 型 的 检查 或 告警 报告 .并 由 检查 点 将 检查 报告 存储 于 运行 状况 信息 库 中 。 

多 数 情况 下 ,质量 管理 人 员 只 关注 存在 质量 问题 的 报告 ,这 些 报告 通常 以 告警 形式 
出 现 。 

报告 功能 是 数据 质量 管理 的 重要 手段 和 方法 ,包括 报告 定义 、 报 告 生成 与 报告 提示 等 功 
能 。 可 以 将 检查 结果 报告 从 不 同 角度 进行 分 类 ,例如 : 

COD 按照 问题 严重 等 级 分 类 可 划分 为 提示 (Information)、 报 警 (Warning)、 严 重 
(Serious) 和 致命 (Fatal) 。 

(2) 按照 管理 层次 分 类 可 划分 为 事件 管理 .问题 管理 和 服务 水 平 管理 。 其 中 ,事件 管理 
是 在 数据 质量 事件 的 粒度 上 反映 和 考查 数据 质量 情况 ; 由 于 多 种 数据 质量 事件 常 可 归结 为 
特定 的 数据 质量 问题 , 故 问 题 管理 是 在 问题 的 粒度 上 对 数据 质量 情况 的 反映 和 考查 ; 因为 
服务 水 平 管理 常 涉及 多 种 数据 质量 问题 管理 ,所 以 服务 水 平 管理 是 在 服务 的 粒度 上 对 数据 
质量 情况 的 反映 和 考查 。 


告警 是 一 类 重要 的 检查 报告 ,包括 报警 .严重 .致命 等 级 别 , 是 数据 质量 管理 人 员 最 为 关 
注 的 报告 类 型 。 监 控 系 统 的 监控 界面 要 求 简洁 醒目 ,能 够 形象 直观 地 表示 系统 问题 故障 。 
维护 人 员 可 以 根据 任意 字段 对 结果 进行 排序 。 

对 于 所 有 的 告警 信息 ,监控 系统 的 告警 形式 可 包括 声音 、 短 消息 和 电话 。 同 时 ,告警 形 
式 可 以 具有 不 同 的 级 别 , 如 一 级 : 声音 ,二 级 : 短信 ,三 级 : 电话 。 

各 种 告警 形式 的 具体 描述 如 下 : 

。 声音 一 一 可 根据 预先 定义 的 告警 级 别 通 过 声音 进行 告警 。 

* 短信 一 一 可 根据 预先 定义 的 告警 级 别 通 过 短 消息 进行 告警 。 

。 电话 一 一 可 根据 预先 定义 的 告警 级 别 通过 电话 进行 告警 。 

所 有 的 告警 信息 都 支持 告警 升级 ,如 果 告 警 信息 超过 告警 升级 的 时 间 阔 值 尚未 解决 , 告 
警 信息 自动 升级 告警 级 别 , 例 如 ,报警 升级 到 严重 。 

4) 处 理 

在 检查 过 程 中 发 现 数 据 质量 问题 时 ,系统 需 根据 问题 的 严重 级 别 启动 相应 的 问题 处 理 
过 程 。 问 题 处 理 过 程 可 分 为 两 大 阶段 。 

第 一 阶段 : 数据 处 理 流程 挂 起 ,问题 隔离 。 当 发 生 严 重 或 致命 级 别 的 问题 时 ,检查 处 理 
模块 直接 根据 预先 定义 的 处 理 方案 ,将 数据 处 理 流程 挂 起 ,并 将 存在 问题 的 数据 进行 隔离 。 
通过 流程 挂 起 和 问题 数据 隔离 ,可 将 问题 的 影响 范围 控制 在 较 小 的 范围 内 ,防止 问题 放大 ， 
便于 问题 的 解决 。 

第 二 阶段 : 问题 分 析 , 问 题 处 理 。 当 发 生 数据 质量 问题 时 ,检查 处 理 模块 通过 报告 发 布 
模块 发 出 数据 质量 问题 报告 ,处 理 分 析 模 块 对 问题 进行 分 析 , 生 成 问题 解决 方案 ,并 通过 适 
当 的 途径 解决 问题 。 

对 于 严重 或 致命 级 别 的 问题 ,需要 执行 以 上 两 个 阶段 的 问题 处 理 过 程 ; 对 于 提示 或 报 
警 级 别 的 问题 , 则 无 须 执行 第 一 阶段 的 操作 , 仅 执行 第 二 阶段 的 操作 即 可 。 

5) 总 结 

当 问题 处 理 环节 结束 后 ,数据 质量 监控 需要 启动 总 结 环节 ,对 问题 处 理 的 全 过 程 进行 记 
录 和 总 结 。 总 结 可 划分 为 不 同 的 类 型 , 即 : 

。 数据 质量 事件 总 结 

。 数据 质量 问题 总 结 

。 数据 质量 总 体 情 况 总 结 

。 数据 质量 阶段 性 总 结 

。 其 他 总 结 
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第 2 章 数据 仓库 设计 和 实现 


2.1 数据 仓库 设计 


数据 仓库 是 一 个 面向 数据 分 析 处 理 的 数据 环境 ,数据 仓库 的 数据 具有 四 个 基本 特征 , 即 
面向 主题 的 、 集 成 的 .不 可 更 新 的 和 随时 间 变 化 的 。 这 些 特 点 说 明 数 据 仓库 从 数据 组 织 到 数 
据 处 理 与 传统 的 数据 库存 在 很 大 区 别 ,数据 仓库 系统 设计 与 数据 库 系统 设计 的 不 同 主要 表 
现在 以 下 几 个 方面 : 

(1) 面向 的 处 理 类 型 不 同 。 操 作 型 数据 库 系统 设计 是 建立 一 个 操作 型 数据 环境 ,其 设 
计 方法 是 面向 应 用 的 。 即 一 般 是 从 具体 应 用 出 发 来 进行 数据 库 设计 ,然后 在 数据 库 上 建立 
这 些 应 用 。 数 据 仓 库 系 统 设计 则 是 面向 分 析 的 ,往往 是 从 最 基本 的 主题 开始 ,不 断 地 扩展 新 
的 主题 ,完善 已 有 的 主题 ,最 终 建 立 一 个 面向 主题 的 分 析 型 数据 环境 。 

(2) 面向 的 需求 不 同 。 面 向 应 用 的 数据 库 系统 设计 具有 比较 明确 的 应 用 需求 ,这 是 数 
据 库 系统 设计 和 开发 的 出 发 点 和 基础 。 在 数据 仓库 环境 下 ,不 存在 操作 型 环境 中 国定 的 且 
较 确切 的 物流 ,数据 处 理 流 和 信息 流 。 数 据 分析 处 理 的 需求 更 灵活 ,没有 固定 的 模式 ,甚至 
用 户 自己 也 对 所 要 进行 的 分 析 处 理 不 其 明了 ,因而 在 进行 数据 仓库 系统 设计 时 ,很 难 获得 对 
用 户 需 求 的 确切 了 解 ,这 就 决定 了 不 可 能 从 用 户 需 求 出 发 进行 数据 仓库 的 设计 。 

(3) 系统 设计 的 目标 不 同 。 设 计数 据 库 系 统 时 ,事务 处 理 的 性 能 (主要 表现 为 事务 处 理 
的 响应 时 间 ) 是 系统 设计 的 一 个 主要 目标 ; 而 设计 数据 仓库 系统 时 ,更 应 该 关心 的 是 建立 起 
一 个 全 局 一 致 的 数据 环境 ,作为 企业 决策 支持 系统 的 基础 ,因此 数据 仓库 设计 的 一 个 主要 目 
标 是 保证 数据 的 四 个 基本 特征 ,保证 数据 的 全 局 一 致 性 ,实现 对 企业 数据 的 全 局 管理 和 
控制 。 

(4) 数据 来 源 或 系统 的 输入 不 同 。 操 作 型 环境 的 数据 输入 通常 来 自 于 组 织 外 部 ,设计 
操作 型 数据 库 即 是 设计 如 何 通过 与 外 部 交互 获取 数据 ,如 何 将 获取 的 数据 以 适当 的 方式 进 
行 存储 ,如 何 对 数据 进行 联机 查询 ,更 新 等 操作 ,以 及 如 何 保证 数据 的 安全 可 靠 与 正确 有 效 
等 。 而 数据 仓库 的 数据 主要 来 自 于 已 有 系统 内 部 ,设计 数据 仓库 即 是 设计 如 何 从 现 有 的 数 
据 源 中 获取 完整 一 致 的 数据 ,如 何 将 所 获取 的 数据 进行 转换 、 重 组 和 综合 ,如 何 有 效 地 提高 
数据 分 析 的 效率 与 准确 性 等 。 

综 上 所 述 ,数据 仓库 的 设计 主要 包括 两 个 方面 一 一 与 操作 型 系统 接口 的 设计 和 数据 仓 
库 本 身 的 设计 。 从 某 种 程度 上 而 言 ,“ 设 计 ” 并 不 能 精确 描述 在 启发 方式 下 构建 数据 仓库 时 
发 生 了 什么 。 首 先 , 载 和 一 部 分 数据 , 供 DSS 分 析 员 使 用 和 查看 ; 然后 ,根据 最 终 用 户 的 反 
馈 , 在 数据 仓库 中 修改 ,增添 一 些 数据 。 这 种 反馈 循环 贯穿 于 整个 数据 仓库 的 开发 过 程 。 那 
种 认为 在 构建 数据 仓库 时 ,采用 过 去 曾 使 用 的 设计 方法 就 可 以 满足 需求 的 想法 是 错误 的 。 
在 数据 仓库 部 分 载 和 并且 为 DSS 分 析 员 使 用 之 前 ,数据 仓库 的 需求 是 不 可 能 知道 的 。 因 
此 ,设计 数据 仓库 时 不 能 采用 与 设计 传统 的 “需求 驱动 ”系统 同样 的 方法 。 男 一 方面 , 那 种 认 
为 不 预测 需求 是 好 思路 的 想法 也 是 错误 的 。 实 际 上 通常 介 于 两 者 之 间 。 


概括 来 说 ,数据 仓库 的 设计 主要 包括 : 
。 体系 结构 设计 
。 数据 仓库 模型 设计 
。 数据 装载 接口 设计 
。 数据 仓库 管理 
。 元 数据 管理 
(1) 体系 结构 设计 
根据 在 业务 探索 和 信息 调研 中 所 了 解 的 用 户 业务 环境 和 IT 环境 ,设计 数据 仓库 的 整 
体 架 构 ,确定 数据 仓库 的 位 置 .网 络 需求 .用 户 访问 数据 仓库 的 方式 等 。 体 系 结构 设计 是 对 
建立 一 个 数据 仓库 系统 的 总 体 描述 ,从 宏观 和 整体 角度 对 数据 仓库 系统 的 各 组 成 部 分 进行 
总 体 设 计 , 并 确定 在 设计 过 程 中 应 遵循 的 总 原则 ,保证 数据 仓库 各 个 部 分 在 开发 过 程 中 能 够 
依据 同样 的 基础 和 标准 ,在 运行 过 程 能 够 相互 协调 配合 。 后 续 的 数据 转换 .应 用 开发 .系统 
管理 等 工作 将 参照 体系 结构 的 设计 和 指导 原则 进行 。 
(2) 数据 仓库 模型 设计 
数据 仓库 模型 设计 包括 概念 模型 设计 、 人 逻辑 模型 设计 和 物理 模型 设计 三 部 分 。 首 先进 
行 的 是 概念 模型 设计 ,以 确定 数据 仓库 的 主要 主题 及 相互 关系 。 概 念 模型 设计 主要 完成 ， 
。 界定 系统 边界 , 即 进行 任务 和 环境 评估 需求 收集 和 分 析 , 了 解 用 户 迫 切 需要 解决 的 
问题 及 解决 这 些 问 题 所 需要 的 信息 ,需要 对 现 有 数据 库 中 的 数据 有 一 个 完整 而 清晰 
的 认识 。 
* 确定 主要 的 主题 域 , 即 确定 系统 所 包含 的 主题 域 ,然后 对 每 个 主题 域 的 公共 码 键 \ 主 
题 域 之 间 的 联系 、 充 分 代表 主题 的 属性 进行 较为 明确 的 描述 。 数 据 仓库 中 的 概念 模 
型 设计 经 常 采用 E-R 模型 和 面向 对 象 的 分 析 方法 。 
逻辑 模型 设计 是 按照 企业 的 业务 规则 和 流程 将 各 种 数据 有 机 地 集成 在 一 个 完整 的 逻辑 
模型 中 。 逻 辑 模型 包括 各 个 业务 实体 .业务 实体 的 属性 ,以 及 业务 实体 之 间 的 关系 等 。 通 过 
逻辑 模型 设计 ,可 以 对 每 个 主题 的 逻辑 实现 进行 定义 ,并 将 相关 内 容 ( 如 适当 的 粒度 划分 、 合 
理 的 数据 分 割 、 增 加 的 派生 字段 .记录 系统 定义 等 ) 记 录 在 数据 仓库 的 元 数据 中 。 
物理 模型 设计 主要 解决 数据 的 存储 结构 .数据 的 索引 策略 .数据 的 存储 策略 、 存 储 分 配 
优化 等 问题 。 其 主要 目的 一 是 提高 性 能 ; 二 是 更 好 地 管理 存储 数据 。 访 问 的 频率 、 数 据 的 
容量 和 存储 介质 的 配置 都 会 影响 物理 设计 的 最 终结 果 。 
(3) 数据 装载 接口 设计 
数据 装载 接口 即 载 人 程序 ,可 实现 数据 装载 和 数据 综合 功能 。 数 据 装载 功能 负责 数据 抽 
取 、 转 换 、 清 洗 和 集成 ; 数据 综合 功能 负责 将 集成 的 细节 数据 转化 为 不 同 综合 层次 的 数据 。 
(4) 数据 仓库 管理 
数据 仓库 管理 负责 安全 和 特权 管理 ; 跟踪 数据 更 新 ; 数据 质量 检查 ; 管理 和 更 新 元 数 
dg; 审计 和 报告 数据 仓库 的 使 用 和 状态 ; 删除 数据 ; 复制 .分割 和 分 发 数据 ; 备份 和 恢复 ; 
存储 管理 。 
(5) 元 数据 管理 
元 数据 为 访问 数据 仓库 提供 了 一 个 信息 目录 (Information Directory) ,这 个 目录 全 面 地 
描述 了 数据 仓库 中 有 什么 数据 、 如 何 获 取 以 及 访问 这 些 数 据 , 是 数据 仓库 运行 和 维护 的 中 
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心 , 数 据 仓 库 服 务 器 利用 它 存储 和 更 新 数据 ,用 户 通过 它 了 解 和 访问 数据 。 元 数据 通常 存储 
在 专用 的 数据 库 中 ,该 数据 库 可 视 为 一 个 “ 黑 盒 ”, 外 部 无 法 知道 这 些 工具 所 用 到 和 产生 的 元 
数据 是 如 何 存储 的 。 此 外 ,还 有 一 类 被 称 为 元 数据 知识 库 (Metadata Repository) 的 工具 , 它 
们 独立 于 其 他 工具 ,为 元 数据 提供 一 个 集中 的 存储 空间 ,如 Microsoft 的 Repository, CA 的 
Repository、Ardent 的 MetaStage 和 Sybase 的 WCC 等 。 


2.1.1 设计 方法 


在 操作 型 环境 中 ,业务 过 程 和 规则 比较 规范 且 固 定 。 设 计 人 员 能 够 清晰 地 了 解 应 用 需 
求 和 数据 流程 ,系统 设计 一 般 采 用 系统 开发 生命 周期 (System Development Life Cycle， 
SDLC) 方 法 。 而 在 分 析 型 环境 中 ,DSS 分 析 员 一 般 是 企业 的 中 上 层 管理 人 员 ,他们 对 决策 
分 析 的 需求 不 能 预先 做 出 规范 说 明 , 只 能 给 设计 人 员 一 个 抽象 .模糊 的 描述 。 这 就 要 求 设计 
人 员 在 与 用 户 不 断 的 交流 过 程 中 ,将 系统 需求 逐步 明确 和 完善 。 人 们 为 了 突出 这 种 需求 不 
确定 的 开发 过 程 ,将 数据 仓库 的 设计 方法 描述 成 数据 仓库 环境 下 的 系统 开发 生命 周期 
(Cycle Life Development System,CLDS) 方 法 .恰恰 与 SDLC 相反 ,CLDS 是 典型 的 数据 驱 
动 的 ,而 SDLC 是 典型 的 需求 驱动 的 ,如 图 2. 1 所 示 。 

数据 库 系 统 设计 常用 的 SDLC 方法 有 独立 的 收集 需求 和 分 析 需 求 的 阶段 ,而 数据 仓库 
系统 设计 采用 的 CLDS 方法 没有 这 样 的 独立 阶段 ,而 是 将 需求 分 析 的 过 程 贯 穿 在 整个 设计 
过 程 中 。 因 为 联机 事务 处 理 的 需求 是 较为 固定 的 ,如 商场 的 库存 管理 ,采购 业务 等 都 有 一 定 
的 操作 规程 ,所 以 在 一 个 系统 开发 生命 周期 内 ,系统 需求 在 设计 的 前 期 阶段 即 收集 需求 和 分 
析 需 求 阶段 结束 后 就 应 该 确定 下 来 ,一 旦 进入 SDLC 方法 的 第 三 步 构建 数据 库 , 如 图 2. 1020 Br 
示 , 系 统 需 求 就 基本 不 变 。 而 CLDS 方法 则 要 求 在 整个 系统 开发 过 程 中 完成 对 系统 需求 的 
收集 .分 析 和 理解 。 


集 应 用 需求 


Y 
分 析 应 用 需求 数据 获取 与 集成 


P-A meme j bw- menmeR 
1 

应 用 编程 e- DSS 应 用 编程 3 
u 

系统 测试 系统 测试 

系统 实施 IRER 


(a) SDLC 方 法 (b) CLDS 方 法 
图 2.1 SDLC 方 法 与 CLDS 方 法 


仓库 建 模 


数据 仓库 的 设计 方法 是 “数据 驱动 ”的 ,其 思路 是 利用 以 前 所 取得 的 工作 成 果 进 行 系统 
建设 。 要 充分 利用 现 有 的 工作 成 果 , 唯 一 的 办 法 就 是 能 识别 出 当前 系统 设计 与 系统 设计 已 
完成 工作 的 “共同 性 ”。 即 在 数据 仓库 系统 设计 前 ,需要 清楚 原 有 的 数据 库 系 统 已 经 完成 什 
么 ,以 及 它们 对 当前 系统 设计 的 影响 等 。 应 尽 可 能 地 利用 现 有 的 数据 、 代 码 等 ,而 不 是 什么 
都 从 头 开始 。 从 源 数据 出 发 ,分 析 数 据 ,为 新 应 用 (分 析 处 理 ) 所 用 就 是 “数据 驱动 ”的 出 
发 点 。 

“数据 驱动 ”的 系统 设计 不 再 面向 应 用 ,而 是 从 已 有 的 数据 库 系统 出 发 ,按照 分 析 领 域 对 
数据 及 数据 之 间 的 联系 重新 组 织 数据 仓库 中 的 主题 。 

“数据 驱动 ”设计 方法 的 核心 是 利用 数据 模型 有 效 地 识别 现 有 数据 库 中 的 数据 和 数据 仓 
库 中 主题 的 “数据 的 共同 性 ”。 


2.1.2 体系 结构 设计 


数据 仓库 开发 是 一 个 不 断 循 环 、 反 馈 而 使 系统 不 断 扩展 、 完 善 的 过 程 ,这 对 系统 体系 结 
构 设 计 提出 了 很 高 的 要 求 ,要 求 体 系 结构 具有 良好 的 可 扩展 性 和 灵活 性 ,能 适应 复杂 多 变 的 
业务 需求 ,不 做 或 少 做 无 效 、 重 复工 作 。 其 次 ,数据 仓库 建设 的 目标 不 是 数据 集成 ,而 是 通过 
数据 集成 为 业务 发 展 提供 前 所 未 有 的 决策 支持 。 因 此 ,在 数据 仓库 体系 结构 设计 中 应 充分 
考虑 到 这 一 点 , 即 结合 业务 应 用 的 需求 。 

目前 ,比较 成 熟 的 数据 仓库 体系 结构 主要 有 两 种 : 一 是 企业 信息 工厂 (Corporate 
Information Factory .CIF) ,创始 人 是 数据 仓库 之 父 Inmon; 二 是 多 维 体系 结构 (Multidimensional 
Architecture,MD) 又 称 总 线 架构 (Bus Architecture) ,创始 人 是 数据 仓库 领域 中 颇具 实践 经 
验 的 Kimball, 

1. 企业 信息 工厂 

企业 信息 工厂 主要 包括 集成 转换 层 (Integrated and Transformation Layer) ,操作 数据 
存储 (Operational Data Store, ODS) 、 企 业 中 心 数 据 仓 库 (Enterprise Data. Warehouse, 
EDW) .数据 集 市 (Data Mart) 和 探索 仓库 (Exploration Warehouse) 等 部 件 , 它 们 有 机 地 结 
合 在 一 起 ,为 企业 决策 支持 提供 服务 。 

集成 转换 层 是 将 来 自 操作 型 源 系 统 的 数据 集成 并 转换 到 数据 仓库 ,通常 由 一 组 程序 组 
成 ,而 其 他 部 件 如 数据 仓库 和 数据 集 市 等 则 主要 由 数据 组 成 。 当 业务 数据 来 源 多 .业务 复杂 
时 ,集成 转换 层 建 立 一些 临 时 表 ,为 数据 处 理 提供 方便 。 此 时 ,集成 转换 层 包括 程序 和 数据 ， 
也 称 数 据 准备 区 (Data Staging Area). 。 通 常 地 ,中 等 规模 及 以 上 的 数据 仓库 系统 都 会 建立 
数据 准备 区 。 

ODS 是 建立 在 数据 准备 区 和 数据 仓库 之 间 的 一 个 部 件 ,用 来 满足 企业 集成 的 .综合 的 
操作 型 处 理 需 要 。 例 如 ,提供 尽 可 能 实时 的 和 集成 的 报表 等 。 一 般 地 ,ODS 用 以 满足 企业 
战略 决策 的 需要 ,为 可 选 部 件 。 

企业 中 心 数据 仓库 是 CIF 的 核心 部 件 ,用 来 保存 整个 企业 的 数据 。 一 般 地 ,数据 仓库 
用 以 满足 企业 战略 决策 的 需要 ,其 数据 来 自 数据 准备 区 和 ODS, 

数据 集 市 是 为 了 满足 企业 特定 部 门 的 分 析 需 求 而 专门 建立 的 数据 集合 。 数 据 集 市 的 数 
据 来 源 是 数据 仓库 。CIF 的 数据 集 市 一 般 而 言 是 非 规 范 化 的 、 定 制 的 和 汇总 的 。 而 多 维 体 
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系 结构 中 的 数据 集 市 分 为 两 种 , 即 原子 数据 集 市 和 聚集 数据 集 市。 一 般 而 言 ,CIF 的 数据 集 
市 相当 于 多 维 体系 结构 中 的 聚集 数据 集 市 。 

探索 仓库 或 数据 挖掘 仓库 的 建立 主要 是 为 了 解决 大 型 查询 ,提高 数据 仓库 的 效率 。 当 
有 探索 或 挖掘 需求 时 ,会 从 数据 仓库 导出 一 部 分 数据 供 其 操作 。 

CIF 的 实现 方式 是 ,首先 进行 企业 的 数据 整合 ,建立 企业 中 心 数据 仓库 即 EDW。 对 于 
各 种 分 析 需 求 再 建立 相应 的 数据 集 市 或 者 探索 仓库 ,其 数据 来 源 于 EDW。CIF 的 数据 流向 
一 般 是 从 源 系 统 到 数据 准备 区 到 操作 数据 存储 到 数据 仓库 到 数据 集 市 。 当 分 析 人 员 在 数据 
仓库 或 数据 集 市 中 获得 分 析 结论 后 ,将 有 信息 的 回流 。 这 种 信息 回流 有 可 能 是 物理 数据 的 
回流 ,也 可 能 是 直接 改变 业务 部 门 的 决策 。 总 之 ,要 将 分 析 的 结果 应 用 起 来 。 通 过 这 种 信息 
回流 ,企业 信息 工厂 的 不 同 部 件 可 以 不 断 地 相互 调整 ,最 终 获 得 一 种 平衡 。 

2. 多 维 体系 结构 

多 维 体系 结构 主要 包括 后 台 (Back Room) 和 前 台 (Front Room) 两 部 分 。 后 台 也 称 为 
数据 准备 区 ,是 多 维 体系 结构 的 核心 部 件 。 它 是 一 致 性 维度 的 产生 ,保存 和 分 发 的 场所 。 同 
时 ,代理 键 也 在 后 台 产生 。 前 台 是 多 维 体系 结构 对 外 的 接口 ,包括 两 种 主要 的 数据 集 市: 一 
种 是 原子 数据 集 市 ; 另 一 种 是 聚集 数据 集 市 。 原 子 数据 集 市 保存 着 最 低 粒度 的 细节 数据 ， 
数据 以 星 型 结构 进行 存储 ; 聚集 数据 集 市 的 粒度 通常 比 原子 数据 集 市 大 ,与 原子 数据 集 市 
一 样 , 聚 集 数据 集 市 也 是 以 星 型 结构 存储 数据 。 前 台 还 包括 像 查询 管理 、 活 动 监控 等 为 了 提 
高 数据 仓库 的 性 能 和 质量 的 服务 。 多 维 体系 结构 中 ,首先 在 数据 准备 区 建立 一 致 性 维度 , 建 
立 一 致 性 事实 的 计算 方法 ; 其 次 在 一 致 性 维度 .一致 性 事实 的 基础 上 逐步 建立 数据 集 市 。 
每 次 增加 数据 集 市 ,都 会 在 数据 准备 区 整合 一 致 性 维度 ,并 将 整合 好 的 一 致 性 维度 同步 
更 新 到 所 有 的 数据 集 市 。 这 样 ,所 有 建立 的 数据 集 市 合 在 一 起 就 是 一 个 完整 的 数据 
仓库 。 

3. 比较 

CIF 对 于 建立 复杂 应 用 ,如 挖掘 仓库 和 探索 仓库 提供 了 更 好 的 支持 。 但 其 建设 周期 比 
较 长 ,成 本 较 高 。MD 中 心 数据 仓库 以 多 维 模型 保存 ,对 于 特殊 的 非 维度 型 分 析 应 用 存在 局 
限 性 。 总 之 ,这 两 种 体系 结构 都 是 不 错 的 选择 ,但 各 有 优 缺 点 。 一 种 比较 流行 的 做 法 是 联合 
使 用 , 即 建立 CIF 的 数据 仓库 和 MD 的 数据 集 市 。 

4. 实例 

目前 ,企业 采用 的 典型 数据 仓库 体系 结构 分 为 数据 源 、 数 据 的 存储 与 管理 .OLAP 引 
擎 .前端 工具 和 应 用 四 个 层次 ,如 图 2. 2 所 示 。 

CD 数据 源 是 数据 仓库 系统 的 基础 .是 整个 系统 的 数据 源泉 。 通 常 包括 企业 内 部 信息 
和 外 部 信息 。 内 部 信息 包括 存放 于 RDBMS 中 的 各 种 业务 处 理 数据 和 各 类 文档 数据 ; 外 部 
信息 包括 各 类 法 律 法 规 ,市场 信息 和 竞争 对 手 信 息 等 。 数 据 仓库 可 通过 ODBC, JDBC 和 
OLE-DB 等 多 种 标准 接口 与 这 些 数 据 源 互 连 。 

(2) 数据 的 存储 与 管理 是 整个 数据 仓库 系统 的 核心 和 关键 。 数 据 仓 库 的 组 织 管理 方 
式 决定 其 有 别 于 传统 的 数据 库 , 同 时 也 决定 了 其 对 外 部 数据 的 表现 形式 。 数 据 仓库 针对 
现 有 各 业务 系统 的 数据 ,进行 抽取 、 清 理 并 有 效 集成 .按照 主题 进行 组 织 。 数 据 仓 库 的 组 
织 形 式 按照 数据 覆盖 范围 可 以 分 为 企业 级 数据 仓库 和 部 门 级 数据 仓库 (通常 称 为 数据 
集 市 ) 。 
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图 2.2 典型 的 数据 仓库 体系 结构 


(3) OLAP 引擎 对 分 析 需 要 的 数据 进行 有 效 地 集成 ,按照 多 维 模型 进行 组 织 , 实 现 多 角 
度 和 多 层次 的 分 析 , 并 预测 趋势 。 按 其 具体 实现 可 以 分 为 ROLAP (Relational OLAP), 
MOLAP(Multi-Dimensional OLAP) 和 HOLAP(Hybrid OLAP), ROLAP 的 基本 数据 和 
聚合 数据 均 存 放 在 RDBMS 中 ; MOLAP 的 基本 数据 和 聚合 数据 均 存 放 在 多 维 数据 库 中 ; 
HOLAP 的 基本 数据 存放 在 RDBMS 中 ,聚合 数据 存放 在 多 维 数据 库 中 。 

(4) 前 端 工具 和 应 用 主要 包括 各 种 报表 工具 、 查 询 工 具 、 数 据 分 析 工 具 、 数 据 挖掘 工具 
以 及 各 种 基于 数据 仓库 或 数据 集 市 的 应 用 开发 工具 。 其 中 数据 分 析 工 具 主要 针对 OLAP 
服务 器 ,报表 工具 和 数据 挖掘 工具 主要 针对 数据 仓库 。 


2.1.3. 数据 模型 设计 


数据 仓库 的 数据 模型 设计 是 构建 数据 仓库 的 关键 ,正确 、 
完备 的 数据 模型 是 用 户 业务 需求 的 体现 ,是 数据 仓库 成 功 与 否 
最 重要 的 技术 因素 。 建立 企业 模型 
由 于 数据 仓库 自身 的 特点 ,其 数据 模型 的 设计 过 程 和 传统 | 
操作 型 数据 库 数据 模型 的 设计 有 很 多 不 同 ,数据 仓库 的 数据 模 FELD 
型 设计 过 程 如 图 2.3 所 示 。 l : 
不 同 设计 阶段 处 理 的 主要 问题 可 概括 为 ， 一 二 一 
。 企业 模型 一 一 企业 模型 的 建立 是 数据 仓库 数据 模型 设 设计 逻辑 模型 [^] 
计 的 基础 ,以 提高 模型 的 可 扩展 性 。 | 
。 概 念 模型 一 -概念 模型 用 于 完成 数据 仓库 主题 的 确 CH 


定 , 同 时 确定 主题 的 范围 。 

。 逻辑 模型 一 一 逻辑 模型 确定 数据 仓库 的 数据 模式 ,主要 
关注 大 数据 量 的 存储 策略 以 及 数据 仓库 的 处 理性 能 。 

。 物理 模型 一 一 物理 模型 使 用 具体 的 DBMS 功能 , 进 一 图 2.3 数据 仓库 的 数据 
步 解 决 数据 仓库 的 性 能 。 模型 设计 过 程 
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原理 及 应 用 (第 二 版 ) 


1. 概念 模型 设计 

数据 仓库 的 概念 模型 描述 了 从 客观 世界 到 主观 认识 的 映射 。 通 过 概念 模型 设计 ,可 以 
确定 数据 仓库 的 主要 主题 及 相互 关系 , 它 主 要 是 依据 建立 的 企业 模型 确定 数据 仓库 的 各 个 
主题 ,主题 来 源 于 企业 模型 中 的 实体 ,主题 的 确定 需要 由 最 终 用 户 和 数据 仓库 设计 人 员 共 同 
完成 。 数 据 仓库 的 主题 确定 后 ,就 可 以 根据 主题 将 企业 模型 划分 成 不 同 的 部 分 ,同时 将 这 种 
划分 映射 到 相应 的 数据 库 模型 ,作为 下 一 步 逻辑 模型 设计 的 基础 。 

概念 模型 设计 的 主要 步骤 是 : 

(1) 确定 主题 

(2) 划 定 主题 边界 

概念 模型 设计 是 在 原 有 的 业务 数据 库 的 基础 上 建立 一 个 较为 稳固 的 概念 模型 。 因 为 数 
据 仓库 是 对 现 有 数据 库 系 统 的 数据 进行 集成 和 重组 而 形成 的 数据 集合 ,所 以 数据 仓库 的 概 
念 模型 设计 ,首先 要 对 现 有 数据 库 系 统 进行 分 析 和 理解 ,了 解 现 有 数据 库 系统 中 有 什么 、 怎 
样 组 织 以 及 如 何 分 布 等 ,然后 再 考虑 应 当 如 何 建立 数据 仓库 系统 的 概念 模型 。 一 方面 ,通过 
现 有 数据 库 的 设计 文档 以 及 在 数据 字典 中 的 数据 库 关系 模式 ,可 以 对 企业 现 有 数据 库 的 内 
容 有 一 个 完整 而 清晰 的 认识 ; 另 一 方面 ,数据 仓库 的 概念 模型 是 面向 整个 企业 的 , 它 为 集成 
来 自 各 个 面向 应 用 的 数据 库 的 数据 提供 了 统一 的 概念 视图 。 

概念 模型 设计 是 在 较 高 抽象 层次 上 的 设计 ,因此 设计 概念 模型 时 不 用 考虑 具体 技术 条 
件 的 限制 。 

2. 逻辑 模型 设计 

数据 仓库 的 逻辑 模型 描述 了 数据 仓库 主题 的 逻辑 实现 ,相对 于 关系 数据 库 而 言 即 是 描 
述 每 个 主题 对 应 的 关系 表 中 关系 模式 的 定义 。 

1) 模型 选择 

逻辑 模型 设计 是 数据 仓库 设计 的 重要 步骤 之 一 ,因为 它 能 直接 反映 出 业务 部 门 的 需求 ， 
同时 对 系统 的 物理 实施 具有 重要 的 指导 作用 。 目 前 ,数据 仓库 中 较 常 用 的 逻辑 模型 是 第 三 
范式 (Third Normal Form,3NF) 和 多 维 模型 。 以 Inmon 为 代表 的 观点 认为 数据 仓库 建 模 
应 该 采用 基于 传统 的 实体 一 关系 ,而 以 Kimball 为 代表 的 观点 则 认为 数据 仓库 应 该 采用 多 
维 模型 。 通 常 在 多 维 模型 中 以 星 型 模式 (Star Schema) 最 具 代 表 性 ,所 以 有 的 学 者 把 多 维度 
模型 直接 称 作 星 型 模式 。 

(1) 第 三 范式 

实体 -关系 又 称 为 第 三 范式 (Third Normal Form,3NF) 是 大 多 数 传统 数据 库 系 统 的 建 
模 方法 。 在 数据 仓库 的 逻辑 模型 设计 中 采用 第 三 范式 ,具有 非常 严格 的 数学 定义 。 如 果 从 
其 表达 的 含义 来 看 ,一 个 符合 第 三 范式 的 关系 必须 具备 以 下 三 个 条 件 : 

CD 每 个 属性 的 值 唯一 ,不 具有 多 义 性 ; 

C 每 个 非 主 属性 必须 完全 依赖 于 整个 主键 ,而 非 主键 的 一 部 分 ; 

© 每 个 非 主 属性 不 能 依赖 于 其 他 关系 中 的 属性 ,否则 这 一 属性 应 该 归 到 其 他 关系 中 。 

第 三 范式 的 定义 基本 上 是 围绕 主键 与 非 主 属性 之 间 的 关系 而 做 出 的 。 如 果 只 满足 第 一 
个 条 件 , 则 称 为 第 一 范式 ; 如 果 满 足 前 两 个 条 件 , 则 称 为 第 二 范式 ,以 此 类 推 。 因 此 ,各 级 范 
式 是 向 下 兼容 的 。Inmon 提倡 的 第 三 范式 建 模 与 操作 型 数据 库 系统 的 第 三 范式 建 模 在 侧重 
点 上 有 些 不 同 。Inmon 提倡 的 数据 仓库 建 模 方法 分 为 三 层 , 第 一 层 是 实体 关系 层 , 即 企业 的 


业务 数据 模型 层 , 在 这 一 层 上 和 企业 的 操作 型 数据 库 系 统 建 模 方法 是 相同 的 ; 第 二 层 是 数 
据 项 集 层 ,这 一 层 的 建 模 方法 根据 数据 的 产生 频率 及 访问 频率 等 因素 与 企业 的 操作 型 数据 
库 系统 的 建 模 方法 产生 了 不 同 ; 第 三 层 物理 层 是 第 二 层 的 具体 实现 。 

(2) 多 维 模 型 

多 维 模型 是 一 种 面向 用 户 需 求 的 、 容 易 理解 的 \ 访 问 效率 高 的 设计 方法 。 将 数据 仓库 的 
数据 组 织 成 多 维 模型 主要 是 基于 数据 仓库 支持 的 大 部 分 是 OLAP 应 用 ,而 OLAP 要 求 数据 
按照 多 维 模型 的 形式 组 织 , 以 支持 OLAP 的 钻 取 、 切 片 和 旋转 等 操作 。 同 时 多 维 模型 与 其 
他 的 数据 组 织 形式 相 比 ,对 数据 进行 了 大 量 的 预 汇总 操作 以 提高 数据 的 查询 速度 ,这 对 于 既 
要 处 理 大 量 数据 同时 又 要 保证 用 户 查 询 效率 的 数据 仓库 系统 更 为 适用 。 另 外 ,以 多 维 模型 
的 形式 组 织 数据 也 符合 用 户 的 查询 习惯 。 

多 维 模型 中 数据 是 按照 多 维 的 形式 组 织 的 ,维度 是 用 户 观 察 数据 的 角度 ,如 时 间 、 地 域 
等 。 以 用 户 的 一 次 通话 为 例 ,其 中 包括 了 时 间 、 话 务 类 型 .通达 地 市 等 多 个 观察 的 维度 。 维 
度 是 有 层次 的 ,如 时 间 维 可 以 按照 “年 一 月 一 日 ”的 层次 划分 ,维度 的 不 同 层次 决定 了 所 展示 
数据 的 详细 程度 。 根 据 维度 的 不 同 特性 可 以 将 维度 分 类 ,不 同 的 分 类 将 影响 维 的 实现 方式 。 

根据 维度 层次 结构 的 特点 ,可 以 将 维度 划分 为 : 

。 均衡 的 层次 结构 

均衡 的 层次 结构 中 ,每 个 层次 的 所 有 分 支 都 降 至 同一 级 别 , 而 且 每 个 成 员 的 逻辑 父 代 是 
上 一 级 成 员 。 例 如 ,移动 业务 中 的 通话 区 域 维 ,可 以 划分 为 “省 一 地 市 一 交换 机 ”三 个 层次 ， 
如 图 2.4 所 示 。 

。 非 均衡 的 层次 结构 

非 均衡 的 层次 结构 中 ,每 个 层次 的 分 支 降 至 不 同 的 级 别 , 但 是 同一 成 员 的 逻辑 子 代 全 部 
位 于 同一 级 别 , 如 图 2.5 所 示 。 

其 中 ,客户 类 型 层次 中 的 两 个 成 员 个 人 客户 和 集团 客户 分 别 降 至 不 同 的 级 别 。 

。 不 整齐 的 层次 结构 

不 整齐 的 层次 结构 中 ,每 个 层次 的 分 支 降 至 不 同 的 级 别 ,并 且 同 一 成 员 的 逻辑 子 代位 于 
不 同 的 级 别 , 如 图 2.6 所 示 。 

其 中 ,费用 类 型 层次 中 的 成 员 通话 费 的 逻辑 子 代 分 别 降 至 费用 类 型 细 分 和 最 小 费 项 两 
个 不 同 的 级 别 。 

根据 维度 生成 方式 的 不 同 , 可 以 将 维度 划分 为 : 

。 业务 实体 

维度 来 源 于 业务 系统 中 的 各 个 业务 实体 ,它们 是 与 主题 关联 的 实体 ,例如 客户 、 产 品 和 
销售 渠道 等 。 

。 事实 属性 

维度 也 可 以 是 来 源 于 事实 的 属性 ,它们 是 对 事实 的 分 类 ,如 电信 业务 中 通话 行为 这 一 事 
实 中 的 通话 类 型 (长 途 、 本 地 通话 ) 就 是 通话 行为 的 属性 。 一 般 这 样 的 维 在 实体 关系 模型 中 
表现 为 关联 实体 的 属性 。 

。 业务 实体 属性 

这 部 分 维度 是 与 主题 关联 的 各 个 业务 实体 的 属性 ,是 对 业务 实体 的 分 类 ,如 客户 属性 中 
的 性 别 、 工 作 性 质 。 
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图 2.4 均衡 的 维度 层次 结构 


图 2.5 非 均衡 的 维度 层次 结构 
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费用 类 型 费用 类 型 细 分 最 小 费 项 


图 2.6 不 整齐 的 维度 层次 结构 


。 派生 维 

派生 维 是 基于 事实 表 中 其 他 维 或 度量 生成 的 逻辑 维 ,如 电信 业务 中 的 付费 方式 (预付 
费 ,后 付费 ) 维 是 通过 套餐 维 生 成 的 。 增 加 派生 维度 ,不 会 增加 事实 表 中 的 数据 量 。 派 生 维 
的 生成 依赖 于 用 户 的 业务 定义 。 

除了 维度 的 概念 外 ,多 维 模型 中 的 另 一 个 重要 概念 是 度量 。 度 量 是 从 现实 系统 中 抽象 
出 来 的 ,描述 数据 的 实际 含义 ,如 电信 企业 发 展 的 用 户 数 、 出 账 费 用 等 。 度 量 一 般 都 是 数值 
类 型 ,通过 使 用 聚集 函数 得 到 。 通 过 度量 可 以 对 所 观察 的 事物 进行 一 定 的 评价 。 

根据 度量 对 数据 集 的 聚集 方式 不 同 ,度量 可 以 划分 为 : 

。 分布 的 

设 数 据 被 划分 为 n 个 集合 ,函数 在 每 一 部 分 上 计算 得 到 一 个 汇总 值 。 如 果 将 函数 用 于 
nn 个 汇总 值得 到 的 结果 ,与 将 函数 用 于 所 有 数据 得 到 的 结果 一 样 则 该 度量 是 分 布 的 。 例 如 ， 
在 电信 业务 中 通话 费用 这 个 度量 就 是 分 布 的 ,这 种 形式 的 度量 所 应 用 的 聚集 函数 一 般 是 
count() ,sum 等 。 

。 函数 的 

如 果 聚 集 函 数 可 以 由 一 个 具有 M 个 参数 的 函数 表示 , 且 每 个 参数 都 可 以 用 一 个 分 布 汇 
总 函数 求 得 , 则 该 度量 是 函数 的 。 如 avg O RT EA HH. sum()Vcount() 计 算得 到 ,其 中 sumo M 
count() 是 分 布 汇 总 函数 ,例如 月 平均 使 用 次 数 就 是 一 个 函数 的 度量 。 

。 整体 的 

如 果 一 个 聚集 函数 无 法 用 具有 M 个 参数 的 函数 表示 , 则 该 度量 是 整体 的 ,如 rand()、 
count(distinct) 等 ,例如 使 用 业务 的 用 户 数 就 是 一 个 整体 的 度量 。 

不 同 的 维度 和 度量 是 通过 事实 联接 起 来 的 。 事 实 是 对 某 类 事件 或 某 种 状态 的 记录 , 例 
如 ,一 次 通话 或 者 业务 受理 等 ,事实 一 般 都 包括 若干 度量 提供 对 事件 的 评价 ,例如 通话 这 一 
事实 包括 通话 时 长 .通话 费用 等 度量 。 也 有 一 部 分 事实 不 包括 任何 度量 ,它们 反映 了 某 类 事 
件 的 发 生 , 如 * 某 人 在 某 天 被 停机 ”。 

Kimball 提倡 的 数据 仓库 的 多 维 模型 ,一般 也 称 为 星 型 模式 ,有 时 也 加 入 一 些 雪 花 型 
模式 。 星 型 模式 是 为 了 将 数据 分 割 为 执行 起 来 容易 理解 的 格式 而 设计 的 , 它 是 一 种 多 维 
的 关系 ,由 一 个 事实 表 (Fact Table) 和 一 组 维 表 (Dimension Table) 组 成 。 每 个 维 表 都 有 一 
个 维 作为 主键 ,该 主键 链接 到 事实 表 , 所 有 这 些 维 组 合成 事实 表 的 主键 。 事 实 表 的 非 主 
属性 称 为 事实 (Fact) ,一 般 都 是 数值 或 其 他 可 以 进行 计算 的 数据 ,而 维 大 都 是 时 间 、 地 
域 等 。 

。 事实 表 。 每 个 数据 仓库 或 数据 集 市 都 包括 一 个 或 多 个 事实 表 。 星 型 模式 或 雪花 型 
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模式 的 中 心 是 一 个 事实 表 。 通 常 ,事实 表 包 含 大 量 的 行 ,有 时 当 事 实 表 包 含 企业 一 
年 或 几 年 的 历史 数据 时 ,可 能 有 数 亿 条 记录 。 事 实 表 的 主要 特点 是 包含 数值 数据 
(事实 ) ,而 这 些 数值 数据 可 以 汇总 以 提供 有 关 企业 运营 历史 的 信息 。 每 个 事实 表 还 
包含 一 个 由 多 个 部 分 组 成 的 索引 ,该 索引 包含 作为 外 键 的 相关 维 表 的 主键 ,而 维 表 
包含 事实 记录 的 特征 。 事 实 表 不 应 包含 描述 信息 ,也 不 应 包含 数值 度量 字段 ,以 及 
使 事实 与 维 表 中 的 对 应 项 相关 的 索引 字段 之 外 的 任何 数据 。 

维 表 。 包 含 描述 事实 表 中 的 事实 记录 的 特征 。 有 些 特征 提供 描述 性 信息 ,有 些 特 性 
用 于 指定 如 何 汇总 事实 表 数 据 以 便 为 分 析 者 提供 有 用 的 信息 。 维 表 包 含有 助 于 汇 
总 数据 的 特性 的 层次 结构 。 

数据 仓库 的 负载 主要 有 两 种 : 一 种 是 回答 重复 性 的 问题 ; 另 一 种 是 回答 交互 性 的 问 
题 。 对 于 以 第 一 种 负载 为 主 的 部 门 数据 集 市 , 当 数 据 量 不 大 、 报 表 较 固定 时 可 采用 多 维 模 
式 ; 对 于 中 央 数 据 仓库 ,考虑 到 系统 的 可 扩展 性 、 投 资 成 本 和 易于 管理 等 诸多 因素 ,可 采用 
第 三 范式 。 

2) 模型 比较 

逻辑 模型 的 设计 既 可 以 采用 星 型 模式 或 者 雪花 型 模式 ,也 可 以 采用 第 三 范式 。 

在 数据 库 逻 辑 模 型 设计 中 有 一 个 规范 化 的 过 程 ,以 减少 数据 元 余 。 范 式 是 衡量 数据 库 
规范 化 程度 或 者 深度 的 一 种 方法 ,具有 非常 严格 的 数学 定义 。 根 据 数据 规范 化 程度 的 不 同 ， 
由 低 至 高 分 为 第 一 范式 、 第 二 范式 、 第 三 范式 、Boyce-Codd 范式 .第 四 范式 和 第 五 范式 。 对 
于 一 般 的 数据 库 系统 而 言 ,只 做 到 第 三 范式 ,如 果 一 个 数据 模型 满足 第 三 范式 ,就 可 以 认为 
该 模型 的 元 余 度 已 经 很 低 了 。 

在 数据 仓库 逻辑 模型 设计 中 ,采用 第 三 范式 可 以 达到 以 下 目的 : 

。 减 少数 据 元 余 , 减 少数 据 的 存储 要 求 。 

。 便 于 数据 抽取 。 采 用 第 三 范式 ,减少 了 单 表 中 的 数据 元 余 , 因 此 在 进行 数据 装载 时 

要 比 星 型 模式 和 雪花 型 模式 使 用 较 少 的 关联 操作 ,数据 的 装载 速度 较 快 ,同时 减少 
数据 宛 余 也 降低 了 数据 之 间 的 依赖 关系 ,便于 数据 的 并 行 抽取 。 例 如 电信 企业 数据 
仓库 数据 模型 设计 时 ,如 果 在 欠 费 表 中 加 入 用 户 套 餐 等 元 余 信息 后 ,在 抽取 欠 费 数 
据 时 必须 首先 等 到 用 户 数据 和 欠 费 数据 同时 准备 好 后 才能 开始 抽取 数据 。 

。 便于 重用 业务 系统 的 数据 模型 ,提高 开发 速度 。 

但 是 满足 第 三 范式 的 数据 模型 在 查询 时 ,特别 是 针对 OLAP 应 用 的 查询 ,需要 进行 的 
数据 关联 操作 较 多 ,查询 效率 低 。 而 星 型 模式 和 雪花 型 模式 通过 对 事实 表 的 预先 汇总 和 引 
入 元 余 字 段 ,提高 了 查询 效率 。 但 是 进行 数据 汇总 的 操作 会 丢失 一 部 分 信息 ,因此 数据 汇总 
方式 的 选择 应 根据 用 户 的 查询 需求 ,如果 需求 发 生变 化 特别 是 需要 增加 新 的 维度 时 , 则 需要 
修改 模型 ,甚至 有 时 要 对 数据 进行 重新 装载 。 

数据 仓库 的 数据 粒度 可 以 分 为 历史 细节 级 、 当 前 细节 级 、 轻 度 综合 级 和 高 度 综合 级 
四 个 层次 ,其 中 轻 度 综合 级 和 高 度 综 合 级 的 数据 都 是 根据 用 户 需 求 进行 一 定 程度 的 汇 
总 ,因此 对 轻 度 综合 级 和 高 度 综合 级 的 数据 易于 使 用 星 型 模式 或 雪花 型 模式 ,以 提高 数 
据 的 访问 速度 。 而 对 于 当前 细节 级 数据 可 以 采用 满足 第 三 范式 的 数据 模型 以 提供 各 种 
细节 信息 。 

采用 多 维 模型 设计 时 需要 注意 的 问题 如 下 : 


。 事实 表 的 设计 

事实 表 主 要 来 自 业 务 系统 中 的 操作 记录 ,例如 电信 业务 中 的 通话 、 缴 费 和 出 账 等 ,同时 
也 有 一 部 分 事实 表 是 对 主题 状态 的 记录 ,如 用 户 停 开机 状态 的 记录 。 

在 设计 事实 表 时 ,应 对 事实 表 中 包含 的 度量 进行 分 类 ,如 果 该 度量 是 一 个 整体 度量 , 则 
需要 对 该 度量 生成 不 同 汇总 级 别 的 事实 表 以 保证 数据 的 准确 性 。 例 如 在 通话 行为 中 ,如 果 
有 一 个 度量 是 通话 用 户 数 , 它 是 一 个 整体 度量 ,因此 要 对 该 度量 生成 不 同 汇 总 层次 的 事实 
表 。 在 设计 事实 表 中 应 尽量 避免 使 用 整体 度量 。 

此 外 ,还 应 注意 将 具有 相同 维度 的 事实 表 通 过 加 入 多 个 度量 进行 合并 ,以 减少 数据 仓库 
中 表 的 数量 和 数据 宛 余 ,但 是 在 进行 事实 表 合并 的 同时 应 兼顾 数据 的 抽取 效率 ,因为 合并 事 
实 表 常会 导致 数据 抽取 时 需 进 行 表 之 间 的 关联 ,例如 ,如 果 将 用 户 的 欠 费 数据 和 销 账 数据 合 
并 为 同一 个 事实 表 , 则 需要 将 欠 费 数据 和 销 账 数据 按照 用 户 标识 进行 关联 形成 一 条 记录 后 
装载 到 事实 表 , 这 样 将 影响 数据 的 抽取 效率 。 一 般 对 高 度 汇总 级 的 数据 进行 事实 表 的 合并 。 

。 维 表 的 设计 

维 表 主 要 来 自 于 业务 系统 的 各 个 实体 以 及 实体 的 属性 ,同时 还 有 一 部 分 是 根据 用 户 需 
求生 成 的 派生 维 。 

一 般 不 使 用 业务 系统 的 主键 作为 维 表 的 主键 , 维 表 的 主键 一 般 选 择 无 意义 的 顺序 的 数 
字 作 为 主键 。 这 主要 是 为 了 保证 对 维 表 中 数据 变化 的 处 理 , 同 时 也 增加 了 维度 层次 组 合 的 
灵活 性 。 由 于 业务 系统 都 是 通过 主键 进行 关联 的 ,因此 增加 新 的 维 表 主 键 会 导致 在 数据 抽 
取 时 需要 对 数据 进行 转换 ,影响 数据 抽取 效率 。 同 时 维 表 中 应 保存 业务 系统 中 的 主键 以 标 
识 业 务 系统 同一 意义 的 数据 。 

一 般 地 ,业务 实体 单独 作为 维 表 ,不 同 实体 之 间 的 关联 通过 主 、 外 键 实现 。 对 于 用 户 定 
义 的 派生 维 通常 需 加 入 时 间 字 有 段 以 保存 用 户 定义 的 变更 。 

3) 逻辑 模型 设计 

数据 仓库 的 逻辑 模型 可 以 认为 是 数据 仓库 开发 者 和 使 用 者 之 间 就 数据 仓库 的 开发 进行 
交流 和 讨论 的 工具 与 平台 ,同时 对 系统 的 物理 实施 具有 重要 的 指导 作用 ,通过 实体 和 关系 勾 
勒 出 整个 企业 的 数据 蓝图 。 

逻辑 模型 设计 主要 包括 如 下 几 个 方面 : 

(1) 主题 域 分 析 

在 概念 模型 设计 中 ,确定 了 几 个 基本 的 主题 域 。 但 是 ,数据 仓库 的 设计 是 一 个 逐步 求 精 
的 过 程 。 一 般 是 一 次 一 个 主题 或 一 次 若干 个 主题 逐步 完成 。 所 以 必须 对 概念 模型 设计 步 又 
中 确定 的 几 个 基本 主题 域 进 行 分 析 ,选择 首先 要 实施 的 主题 域 。 选 择 主题 域 所 要 考虑 的 是 
它 应 足够 大 ,以 构建 一 个 可 应 用 的 系统 ; 它 还 要 足够 小 ,便于 较 快 地 开发 和 实施 。 

(2) 数据 粒度 层次 划分 

数据 仓库 逻辑 设计 的 一 个 重要 问题 是 数据 仓库 的 粒度 层次 划分 ,其 适当 与 否 直接 影响 
数据 仓库 的 数据 量 和 所 适合 的 查询 类 型 。 一 般 需要 将 数据 划分 为 详细 数据 、 轻 度 综合 、 高 度 
综合 三 级 或 更 多 级 的 粒度 。 粒 度 层次 的 划分 是 由 数据 的 行 数 决定 的 ,数据 行 数 越 多 ,所 需 存 
储 空间 越 大 ,粒度 划分 的 级 别 就 越 多 。 

G) 数据 分 割 

数据 分 割 是 提高 数据 仓库 性 能 的 重要 手段 , 它 把 逻辑 上 是 统一 整体 的 数据 分 割 成 较 小 
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的 .可 以 独立 管理 的 物理 单元 进行 存储 ,以 便于 重 构 、 重 组 和 恢复 ,提高 创建 索引 和 顺序 扫描 
的 效率 。 确 定 分 割 策 略 主要 是 指 选 择 适当 的 数据 分 割 标准 ,一 般 应 考虑 以 下 几 方 面 因素 : 
数据 量 .数据 分 析 处 理 的 要 求 .简捷 性 以 及 粒度 划分 策略 等 。 其 中 ,数据 量 的 大 小 是 决定 是 
否 进 行 数据 分 割 和 如 何 分 割 的 主要 因素 ; 数据 分 析 处 理 的 要 求 是 选择 数据 分 割 标准 的 一 个 
主要 依据 ,因为 数据 分 割 与 数据 分 析 处 理 的 对 象 紧 密 联系 ,设计 者 还 需 考虑 到 所 选择 的 数据 
分 割 标准 应 是 自然 的 .易于 实施 的 ,同时 也 应 考虑 数据 分 割 标准 与 粒度 层次 划分 是 相 适 
应 的 。 
(4) 关系 模式 定义 
数据 仓库 的 每 个 主题 都 是 由 多 个 表 实 现 的 ,这 些 表 之 间 以 主题 的 公共 键 码 关联 在 一 起 ， 
形成 一 个 完整 的 主题 。 在 概念 模型 设计 时 ,确定 了 数据 仓库 的 基本 主题 ,并 对 每 个 主题 的 公 
共 键 码 ,基本 内 容 等 进行 描述 , 即 对 选 定 的 当前 实施 的 主题 进行 模式 划分 ,形成 多 个 表 , 并 定 
义 各 个 表 的 关系 模式 。 
4) 数据 粒度 
数据 粒度 是 指数 据 仓 库 中 保存 数据 的 细 化 或 综合 程度 的 级 别 。 细 化 程度 越 高 ,粒度 越 
小 ; 反之 , 细 化 程度 越 低 ,粒度 则 越 大 。 数 据 粒度 的 确定 对 于 数据 仓库 数据 模型 的 设计 非常 
重要 ,主要 原因 在 于 : 
。 数据 仓库 保存 业务 系统 的 历史 数据 , 随 着 时 间 的 推移 ,数据 不 断 增加 ,数据 仓库 保存 
了 大 量 数据 。 在 有 限 的 直接 存储 设备 上 保存 这 些 信 息 , 同 时 又 能 够 较 快 地 响应 用 户 
查询 ,如果 仅 保 存 细节 数据 ,将 减少 数据 的 在 线 保 留 周期 ,而 且 数据 查询 的 效率 也 会 
降低 。 
。 用 户 的 分 析 型 操作 大 部 分 是 对 汇总 信息 的 查询 、 对 数据 趋势 的 观察 ,如 果 仅 保存 细 
节 数 据 , 则 完成 分 析 型 操作 时 需要 遍历 大 量 数据 ,对 系统 的 软 硬 件 要 求 都 很 高 。 
实际 上 ,数据 仓库 的 数据 是 按照 不 同 粒度 保存 的 。 确 定数 据 粒度 旨 在 延长 有 效 数 据 的 
在 线 时 间 ,提高 查询 效率 。 
确定 数据 粒度 时 ,需要 考虑 以 下 问题 : 
(1) 确定 是 否 使 用 多 重 粒度 
单一 粒度 和 多 重 粒 度 的 主要 区 别 是 在 数据 的 元 余 存储 上 ,而 不 是 指 是 否 对 数据 进行 汇 
总 ,单一 粒度 和 多 重 粒度 都 存在 汇总 数据 。 单 一 粒度 是 指 在 数据 进入 数据 仓库 时 先 保存 为 
细节 数据 , 当 数 据 的 保留 周期 到 期 时 ,对 细节 数据 进行 汇总 形成 综合 数据 ,同时 将 细节 数据 
导出 到 其 他 慢 速 存储 设备 上 ,单一 粒度 中 细节 数据 和 汇总 数据 之 间 逻 辑 上 没有 重 私 ; EG 
粒度 是 指数 据 在 进入 数据 仓库 时 ,同时 以 细节 数据 和 汇总 数据 存在 , 当 数 据 的 保留 周期 到 期 
时 ,将 细节 数据 导出 。 多 重 粒 度 中 细节 数据 和 汇总 数据 有 一 部 分 是 重 琶 的 。 对 于 细节 数据 
量 较 大 的 数据 仓库 而 言 ,如 果 以 单一 粒度 存储 ,对 近期 数据 的 查询 效率 较 低 。 因 此 ,对 这 类 
数据 仓库 建议 采用 多 重 粒度 存储 。 
确定 是 否 需 要 使 用 多 重 粒度 ,需要 对 数据 仓库 保存 的 数据 量 进行 估算 ,W. H. Inmon 给 
出 了 数据 量 估算 公式 。 
对 每 个 已 知 表 i 计算 : 
。 估算 一 行 所 占 字 节 数 的 最 大 值 L; 和 最 小 值 L 
。 统计 一 年 内 可 能 出 现 的 数据 行 数 的 最 大 值 M; 和 最 小 值 m: o 


* 统计 五 年 内 可 能 出 现 的 数据 行 数 的 最 大 值 N; 和 最 小 值 wm o 
”计算 每 个 表 键 码 的 字 节 数 K;。 


一 年 内 数据 量 估算 为 : 
最 大 值 = > (L; 十 Ki) X M, 
最 小 值 = > +K) Xm: 
五 年 内 数据 量 估计 为 : 
RAK = 》) (L+K) XN; 


最 小 值 = *--KOoXn 
根据 估算 的 数据 量 ,参照 表 2. 1 ,确定 是 否 使 用 多 重 粒度 。 
表 2.1 不 同 数据 量 级 与 数据 粒度 的 对 应 关系 


1 年 内 数据 量 ( 行 ) 5 年 内 数据 量 ( 行 ) 数据 粒度 策略 
10 000 100 000 设计 简单 
100 000 1 000 000 采用 单一 数据 粒度 
1 000 000 10 000 000 最 好 采用 双重 数据 粒度 
10 000 000 20 000 000 必须 采用 双重 数据 粒度 


除了 数据 量 外 ,是 否 使 用 多 重 粒度 还 应 考虑 细节 数据 的 保留 周期 。 如 果 细 节 数 据 的 保 
留 周 期 较 长 ,可 考虑 使 用 多 重 粒度 以 保证 数据 的 查询 效率 。 值 得 注意 的 是 不 同行 业 \ 不 同 用 
户 需求 可 能 导致 不 同 的 细节 数据 保留 周期 。 

(2) 确定 粒度 级 别 

确定 粒度 级 别 是 指 确定 数据 仓库 中 汇总 数据 的 汇总 程度 ,数据 越 详细 ,数据 粒度 越 低 。 
如 果 数 据 汇 总 程度 较 低 , 则 需要 大 量 的 资源 处 理 数 据 ; 如 果 数 据 汇 总 程度 较 高 , 则 会 降低 查 
询 的 灵活 性 。 

如 前 所 述 ,数据 仓库 的 数据 粒度 层次 分 成 历史 细节 级 .当前 细节 级 、 轻 度 综 合 级 和 高 度 
综合 级 。 一 般 而 言 ,历史 细节 级 和 当前 细节 级 保存 的 都 是 最 低 粒度 的 数据 。 对 粒度 级 别 的 
选择 主要 针对 轻 度 综合 级 和 高 度 综合 级 而 言 , 以 便 大 部 分 查询 可 以 在 轻 度 综合 级 或 高 度 综 
合 级 完成 。 

确定 粒度 级 别 , 需 要 综合 考虑 用 户 需求 和 实际 存储 设备 容量 。 众 所 周知 ,数据 仓库 的 开 
发 是 一 个 反复 的 过 程 ,因此 数据 粒度 级 别 也 需要 和 最 终 用 户 反复 交流 确定 。 如 果 用 户 对 最 
终 展示 的 数据 要 求 更 详细 则 要 降低 粒度 ; 反之 ,如 果 用 户 对 轻 度 综合 数据 的 查询 大 部 分 是 
数据 汇总 操作 ,可 以 适当 提高 粒度 级 别 ,以 提高 用 户 查 询 速度 。 

确定 粒度 级 别 时 需要 注意 的 问题 如 下 : 

。 对 数据 进行 汇总 时 一 般 应 保留 主题 对 应 的 公共 键 码 ,同一 主题 下 的 数据 是 通过 主题 

的 公共 键 码 进行 关联 。 

。 选择 粒度 级 别 时 ,考察 汇总 后 生成 的 某 些 派 生字 段 的 汇总 方式 。 例 如 在 产品 主题 中 
对 一 天 中 产品 的 使 用 情况 进行 汇总 ,可 以 得 到 每 天 不 同 产 品 使 用 的 用 户 数 ,但 是 用 
户 数 对 时 间 而 言 不 存在 有 规律 的 汇总 方式 (或 者 说 是 整体 的 ) ,对 这 种 派生 字段 必须 
提供 多 个 不 同 粒度 的 汇总 数据 。 
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(3) 选择 数据 汇总 方式 

在 确定 数据 粒度 时 要 选择 数据 汇总 方式 ,可 供 选用 的 数据 汇总 方式 主要 包括 : 

。 按 维 汇总 

由 上 述 的 多 维 模型 可 知 , 维 是 用 户 观 察 数 据 的 角度 ,对 应 关系 模型 而 言 就 是 表 中 的 某 个 
字段 。 维 是 有 层次 的 , 按 维 汇总 就 是 指 选取 一 个 维度 ,将 数据 按照 维 的 不 同 层次 进行 汇总 ， 
这 是 最 常用 的 数据 汇总 方式 。 例 如 电信 业务 的 详 单数 据 中 可 以 按时 间 维 进行 汇总 ,从 而 得 
到 某 天 某 个 用 户 的 通话 总 次 数 、 总 时 长 ; 再 对 一 个 月 内 的 用 户 通 话 进行 汇总 ,从 而 得 到 一 个 
月 内 一 个 用 户 的 通话 总 次 数 、 总 时 长 ,进而 再 汇总 到 年 。 时 间 维 是 经 常用 来 进行 汇总 的 一 个 
维度 。 

按 维 汇总 时 ,还 可 以 考虑 用 户 观察 数据 的 其 他 角度 ,加 入 其 他 维度 。 但 是 如 果 维 度 过 
多 ,将 会 影响 数据 的 汇总 效果 。 此 时 ,可 同时 进行 模式 转换 的 汇总 。 例 如 ,电信 业务 话 单 的 
通话 级 别 维 标志 该 条 话 单 是 本 地 还 是 长 途 通话 ,采用 按照 时 间 维 的 不 同 层次 进行 数据 汇总 ， 
如 果 加 入 的 维度 很 多 ,可 以 删除 通话 级 别 维 ,加 入 本 地 通话 次 数 、 长 途 通话 次 数字 段 。 

。 提 取 数 据 子 集 

提取 数据 子 集 是 根据 用 户 的 需求 ,因为 用 户 可 能 只 对 一 个 数据 集合 中 某 类 数据 子 集 感 
兴趣 ,因此 可 以 通过 数据 过 滤 , 只 保留 部 分 数据 供用 户 查询 和 分 析 , 从 而 降低 存 取 的 数据 量 。 
例如 ,在 电信 业务 的 话 单 中 ,用 户 只 对 入 网 一 个 月 以 内 的 用 户 通 话 数 据 感 兴趣 ,可 以 提取 这 
部 分 细节 数据 供用 户 分 析 使 用 ,其 他 数据 通过 汇总 保存 在 较 高 粒度 级 别 上 。 

。 变更 数据 模型 

通过 改变 数据 模型 对 数据 进行 汇总 ,将 某 些 分 类 信息 转换 成 字段 存储 。 例 如 电信 用 户 
账单 中 保存 的 是 每 个 月 每 个 用 户 在 不 同 费 项 上 发 生 的 费用 ,因此 该 表 的 主键 是 月 份 .用 户 标 
识 和 费 项 类 型 ,这 样 数据 行 数 较 多 ,可 以 通过 改变 数据 模型 , 即 删除 费 项 类 型 ,加 入 不 同 费 项 
类 型 的 费用 字段 ,这样 表 的 主键 是 月 份 和 用 户 标识 ,数据 行 数 明显 减少 。 

。 建立 广义 索引 

广义 索引 是 指 对 数据 集合 中 的 数据 特征 进行 统计 ,这 样 用 户 仅 需要 查看 统计 结果 就 可 
以 了 解数 据 的 大 致 情况 ,统计 方法 包括 最 大 最 小 值 ,数据 平均 值 和 排序 等 。 例 如 针对 电信 业 
务 的 欠 费 ,可 以 建立 本 月 欠 费 前 100 名 的 用 户 以 方便 查询 。 

建立 广义 索引 是 基于 用 户 的 查询 需求 ,通过 了 解 用 户 经 常 需要 回答 的 问题 ,可 以 为 用 户 
建立 相应 的 广义 索引 ,提高 查询 效率 。 

数据 仓库 中 ,数据 粒度 之 所 以 重要 ,是 因为 它 深 深 地 影响 数据 仓库 数据 量 的 大 小 ,以 及 
数据 仓库 所 能 回答 的 查询 类 型 。 实 际 中 ,需要 在 数据 仓库 的 数据 量 和 查询 的 详细 程度 之 间 
进行 权衡 。 

如 图 2.7 所 示 为 两 个 粒度 不 同 的 数据 仓库 ,其 中 左 图 是 低 粒度 的 数据 仓库 ,每 次 通话 都 
被 详细 记录 下 来 ,到 月 底 每 个 客户 平均 有 200 条 记录 (当月 每 个 电话 都 记录 一 次 ) ,因此 共 需 
40 000 个 字 节 ; 右 图 是 高 粒度 的 数据 仓库 ,数据 代表 每 个 客户 一 个 月 的 综合 信息 ,每 个 客户 
一 个 月 只 有 一 条 记录 ,这 样 的 记录 大 约 只 需 200 个 字 节 。 当 提高 数据 粒度 级 别 时 ,数据 仓库 
所 能 回答 查询 的 能 力 会 随 之 降低 。 换 言 之 ,在 一 个 很 低 的 粒度 级 别 上 可 以 回答 任何 问题 ,但 
在 高 粒度 级 别 上 所 能 回答 的 问题 有 限 。 

针对 图 2.7 提出 的 问题 * 上 星期 菜 某 客户 是 否 给 某 某 人 打 了 电话 ?”, 在 低 粒度 级 别 上 ， 


例如 一 个 客户 一 个 月 。 (C Q 例如 一 个 客户 一 个 月 
的 通话 详 单 的 细节 数据 的 通话 详 单 的 综合 数据 
低 粒 度 级 每 月 约 40 000 字 节 约 200 字 节 


每 月 约 200 条 记录 每 月 1 条 记录 


活动 记录 活动 记录 (月 ) 
日 其 累计 时 长 
2d 累计 次 数 
是 否 长 途 EUR 
通话 时 间 
通话 费用 


2.7 不 同 粒度 的 数据 仓库 


这 个 问题 是 可 以 回答 的 ,虽然 这 种 回答 将 花费 大 量 开销 去 查询 大 量 的 记录 ,但 查询 结果 是 确 
定 的 。 然 而 ,在 高 粒度 级 别 上 则 无 法 明确 地 回答 这 一 问题 。 因 为 在 数据 仓库 中 存放 的 只 是 
所 拨打 电话 的 总 数 ,无 法 确定 其 中 是 否 有 一 个 电话 是 打 给 某 人 的 。 

但 是 ,DSS 很 少 对 单个 事件 进行 检查 ,通常 是 针对 某 种 数据 集合 进行 处 理 , 这 意味 着 需 
要 查询 大 量 记录 。 例 如 “上 个 月 客户 从 某 地 呼出 的 长 途 电话 平均 多 少 个 ?”, 对 DSS 而 言 这 
类 查询 是 很 常见 的 。 当 然 , 它 既 可 以 在 高 粒度 级 别 也 可 以 在 低 粒度 级 别 上 得 到 回答 。 值 得 
注意 的 是 ,在 不 同 的 粒度 级 别 上 所 使 用 的 资源 具有 相当 大 的 差异 。 在 低 粒 度 级 别 上 回答 这 
一 问题 需要 查询 每 条 记录 ,所 以 需要 大 量 的 资源 。 但 在 高 粒度 级 别 上 ,数据 进行 了 很 大 的 
压缩 。 

显然 ,如 果 数 据 仓库 的 存储 空间 很 有 限 ,高 粒度 级 别 要 比 低 粒 度 级 别 的 效率 高 得 多 。 

高 粒度 级 的 数据 仓库 不 仅 占 用 的 存储 空间 少 得 多 ,而 且 需 要 的 索引 项 较 少 。 然 而 不 仅 
要 考虑 数据 量 和 存储 空间 的 问题 ,为 了 访问 海量 数据 处 理 能 力 同 样 也 是 一 个 应 考虑 的 要 素 ， 
所 以 数据 仓库 中 数据 压缩 非常 有 用 。 数 据 压缩 后 会 大 大 节省 所 占用 的 存储 空间 ,节省 所 需 
的 索引 项 以 及 处 理 器 资源 。 

综 上 所 述 , 对 于 数据 粒度 的 权衡 ,在 数据 仓库 设计 时 必须 仔细 加 以 考虑 。 

5) 数据 分 割 

数据 粒度 是 通过 对 数据 的 汇总 来 减少 数据 量 , 提 高 数据 的 存储 和 查询 效率 。 但 是 并 不 
能 解决 同一 粒度 下 由 于 数据 量 过 大 导致 的 数据 查询 效率 较 低 的 问题 。 对 于 这 类 问题 需要 使 
用 数据 分 割 技术 。 数 据 分 割 是 指 将 数据 分 散 到 各 个 物理 单元 中 以 便 能 够 独立 处 理 , 提 高 数 
据 处 理 效率 。 数 据 分 割 后 的 数据 单元 称 为 分 片 ,分 片 数据 没有 交叉 。 

数据 分 割 的 意义 在 于 : 

。 提高 查询 速度 

通过 分 割 ,降低 查询 的 数据 量 , 同 时 将 大 表 分 割 成 若干 小 表 , 易 于 建立 表 索 引 。 

。 便 于 数据 重组 

数据 重组 是 指 将 数据 按照 一 定 的 规则 进行 新 的 组 合 ,例如 将 电信 业务 话 单 表 分 割 成 每 
月 一 张 表 ,用 户 可 能 按照 一 定 的 规则 将 月 份 分 成 几 个 组 ,这 样 当 查询 某 个 组 的 数据 时 只 要 扫 
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描 该 组 中 的 月 份 对 应 的 表 ,数据 量 相对 较 小 。 

。 便于 表 维 护 

通过 数据 分 割 ,降低 单 表 的 数据 量 ,减轻 数据 维护 的 工作 量 。 

。 增 加 系统 并 行 性 

数据 分 割 可 以 增加 数据 抽取 和 查询 的 并 行 性 。 数 据 仓 库 中 ,数据 分 割 的 关键 问题 不 是 
该 不 该 分 割 而 是 如 何 分 割 。 数 据 分 割 的 主要 工作 是 选择 分 割 的 标准 ,数据 分 割 没有 固定 的 
标准 ,需要 根据 用 户 的 需求 和 数据 使 用 方式 共同 确定 数据 分 割 标 准 。 

选择 分 割 标准 时 需要 考虑 的 主要 因素 如 下 : 

。 数据 分 割 尽量 均匀 

数据 分 割 旨 在 将 数据 量 较 大 的 数据 分 割 成 若干 小 的 分 片 以 提高 查询 速度 ,因此 选择 数 
据 分 割 的 标准 应 尽量 保证 数据 在 各 个 分 片 中 的 分 布 较 均 匀 。 例 如 ,对 通话 详 单 可 以 按照 时 
间 进 行 分 割 , 由 于 每 天 通话 的 次 数 相差 不 多 ,对 某 天 通话 进行 查询 时 可 以 获得 较 高 的 查询 
速度 。 

。 用户 的 查询 需求 

在 选择 数据 分 割 标准 时 应 考虑 用 户 的 查询 需求 ,以 便 将 用 户 的 大 部 分 查询 在 一 个 分 片 
内 完成 ,达到 提高 系统 性 能 的 目的 。 例 如 ,用 户 在 查询 账单 时 经 常 按照 用 户 所 属地 市 进行 查 
询 , 因 此 对 账单 按照 用 户 所 属地 域 进行 分 割 ,这样 用 户 大 部 分 查询 可 以 在 一 个 地 市 的 账单 表 
中 完成 。 但 是 ,如 果 数 据 分 割 的 标准 改 为 按 用 户 标识 的 末尾 数字 , 则 用 户 在 查询 一 个 地 区 的 
账单 时 需要 扫描 全 部 分 片 ,这 样 查询 效率 要 比 不 进行 数据 分 割 时 还 要 低 。 因 此 ,数据 分 割 一 
般 按照 某 个 维度 的 一 个 层次 的 取 值 ,常用 的 维 是 时 间 、 地 域 和 产品 等 。 

。 数据 汇总 的 方式 

数据 分 割 还 应 考虑 数据 汇总 方式 ,如 前 所 述 , 选 择 高 粒度 级 别 可 减少 数据 量 , 同 时 提高 
用 户 某 类 查询 的 速度 ,因此 在 对 低 粒 度 级 别 数据 进行 分 割 时 还 应 考虑 数据 汇总 到 高 粒度 时 
的 汇总 方式 ,一般 选取 的 数据 分 割 标 准 是 高 粒度 级 别 中 的 某 个 维度 。 

。 易 于 数据 重 构 

数据 重 构 是 数据 分 割 的 反 操作 。 易 于 重 构 是 指 采用 分 割 标准 进行 分 割 的 数据 易于 组 成 
整体 以 满足 用 户 的 查询 需求 。 

数据 分 割 标准 是 严格 地 由 开发 人 员 选 择 的 。 然 而 ,在 数据 仓库 中 ,日 期 几乎 是 分 割 标准 
中 一 个 必然 的 组 成 部 分 。 

数据 分 割 可 以 在 应 用 层 也 可 以 在 系统 层 。 系 统 层 的 数据 分 割 一 般 是 依赖 DBMS 或 者 
操作 系统 提供 的 功能 ,不 同 的 DBMS 提供 的 数据 分 割 方法 也 不 同 。 而 应 用 层 的 数据 分 割 主 
要 是 按照 一 定 的 规则 ,将 数据 分 割 为 若干 逻辑 小 表 。 在 逻辑 模型 设计 时 考虑 的 数据 分 割 是 
应 用 层 的 。 

数据 仓库 开发 人 员 面 临 的 主要 问题 之 一 是 在 系统 层 还 是 在 应 用 层 进行 数据 分 割 。 在 系 
统 层 进行 数据 分 割 在 一 定 程度 上 是 DBMS 和 操作 系统 提供 的 功能 。 在 应 用 层 进行 数据 分 
割 则 是 由 应 用 程序 代码 完成 的 ,这 是 由 开发 者 和 程序 员 严 格 控 制 的 。 当 在 应 用 层 进行 数据 
分 割 时 ,DBMS 和 系统 无 法 知道 一 种 分 割 与 男 一 种 分 割 之 间 的 关系 。 

通常 ,在 应 用 层 进行 数据 分 割 是 很 有 意义 的 。 最 为 重要 的 是 在 应 用 层 上 每 年 的 数据 可 
以 有 不 同 的 定义 。 不 同年 份 的 数据 定义 ,可 以 相同 也 可 以 不 相同 (例如 不 同 版 本 )。 在 系统 


层 进 行 数据 分 割 时 ,DBMS 不 可 避免 地 希望 只 有 一 种 数据 定义 。 假 如 数据 仓库 中 保存 的 数 
据 时 间 较 长 (如 达到 十 年 ) ,并 且 数 据 定义 经 常 变化 ,让 DBMS 或 操作 系统 去 管理 一 个 本 该 
只 有 一 种 数据 定义 的 系统 将 是 毫 无 意义 的 。 
在 应 用 层 进行 数据 分 割 的 男 一 重要 特点 是 它 能 从 一 个 处 理 集 转移 到 另 一 个 处 理 集 而 没 
有 损失 。 在 数据 仓库 环境 下 , 当 负 载 和 数据 量 成 为 真正 的 负担 时 ,这 一 特点 则 是 一 种 真正 的 
优势 。 
对 于 数据 分 割 而 言 ,最 严峻 的 挑战 是 能 否 在 分 割 中 加 入 索引 而 不 会 明显 地 影响 其 他 操 
作 。 如 果 一 种 索引 可 随意 加 入 , 则 分 割 是 十 分 理想 的 ; 否则 ,分 割 还 需 更 精细 些 。 
数据 分 割 的 主要 实现 手段 包括 重 构 、 自 由 索引 、 顺 序 扫描 (可 选 的 )、 重 组 ,恢复 和 监 
控 等 。 
如 果 数 据 粒 度 和 数据 分 割 进 行 了 很 好 的 设计 ,几乎 所 有 数据 仓库 设计 和 实现 的 其 他 问 
题 都 将 迎刃而解 ;否则 难以 真正 实现 。 
6) 数据 划分 
数据 划分 与 数据 分 割 不 同 ,数据 分 割 对 关系 模型 而 言 是 指 对 元 组 的 划分 ,而 数据 划分 是 
指 对 实体 的 属性 按照 一 定 的 分 组 原则 划分 为 不 同 的 属性 组 , 即 对 数据 模式 的 分 解 。 一 般 地 ， 
数据 划分 针对 主题 对 应 的 实体 以 及 各 个 与 主题 相关 的 业务 实体 。 
逻辑 模型 设计 中 进行 数据 划分 的 主要 原因 在 于 : 
。 从 数据 存储 角度 来 看 ,实体 中 有 的 实体 属性 更 新 较为 频繁 ,而 其 他 属性 更 新 频率 较 
低 。 由 于 数据 仓库 要 保存 业务 系统 的 变更 历史 ,因而 对 于 每 次 属性 的 变化 ,数据 仓 
库 一 般 采 用 新 建 记 录 的 方式 进行 记录 ,这 样 如 果 将 变化 频率 不 同 的 字段 放 在 同一 张 
KP ,将 浪费 较 多 的 存储 空间 。 
。 从 数据 访问 角度 来 看 , 表 中 的 部 分 字段 是 经 常 被 访问 的 ,而 其 他 字段 访问 次 数 较 少 ， 
如 果 将 所 有 字段 存放 在 一 张 表 中 , 则 表 会 增 大 ,影响 数据 访问 速度 。 
基于 上 述 原因 ,在 逻辑 模型 设计 时 需 考 虑 对 表 进 行 划分 ,采用 的 划分 标准 主要 是 按照 字 
段 变化 频率 和 按照 业务 规则 。 
(1) 按照 字段 变化 频率 
根据 字段 的 变化 频率 ,将 表 中 的 字段 分 成 “比较 稳定 ”“ 有 时 变化 "和 “经 常 变 化 ”三 类 ， 
相应 地 将 表 拆 分 成 变更 频率 不 同 的 三 个 子 表 , 例 如 电信 用 户 资 料 表 的 各 字段 按照 稳定 性 划 
分 如 图 2. 8 所 示 。 


比较 稳定 有 时 变化 经 常 变化 
用 户 标识 用 户 标 识 用 户 标识 
用 户 号 码 用 户 套餐 用 户 状态 
人 网 方式 用 户 信用 额度 费用 余额 
受理 点 
人 网 时 间 


图 2.8 按照 字段 变化 频率 划分 电信 用 户 资料 表 的 各 字段 
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按照 字段 变化 频率 对 表 进 行 划分 后 ,数据 的 存储 空间 占用 较 少 。 

(2) 按照 业务 规则 

按照 业务 规则 是 指 按照 业务 系统 的 业务 规则 将 字段 分 成 共有 数据 和 专 有 数据 。W. H. 
Inmon 提出 了 数据 项 集合 (Data Item Set,DIS) 方 法 对 表 进 行 划 分 。DIS 方法 将 数据 分 成 初 
始 数据 .二 次 数据 .联接 数据 以 及 各 种 数据 类 型 。 其 中 ,初始 数据 是 指 主题 中 仅 出 现 一 次 的 
属性 ,例如 客户 标识 、 入 网 时 间 等 ; 二 次 数据 是 指 关 联 实体 的 属性 ,例如 产品 名 称 等 ,一 般 是 
一 些 描述 性 字段 ; 联接 数据 是 指 本 主题 与 其 他 实体 间 的 关联 ,例如 客户 和 产品 等 。 数 据 类 
型 是 指 按照 业务 规则 对 实体 进行 分 类 ,可 以 看 成 是 类 的 继承 关系 ,例如 客户 按照 消费 程度 可 
以 分 为 大 客户 和 普通 客户 ; 按照 所 处 的 状态 可 以 分 为 停机 客户 、 正 常客 户 和 离 网 客户 等 。 
可 以 对 实体 按照 不 同 的 标准 进行 分 类 ,不 同 分 类 之 间 是 组 合 的 关系 ,如 图 2.9 所 示 。 


停机 客户 
客户 标识 
初始 数据 停机 原因 
PH 停机 时 间 
入 网 时 间 
IE M 离 网 客户 
客户 名 称 
客户 标识 
— n 08 离 网 原因 
m= 离 网 时 间 
受理 点 点 "i i 正常 客户 
受理 点 地 址 
me L|] 客户 标识 
联接 数据 -次 数据 开机 时 间 


2.9 按照 业务 规则 划分 的 实例 


按照 业务 规则 对 数据 进行 划分 ,有 利于 数据 访问 。 

7) 数据 模式 

数据 仓库 的 数据 模式 包括 星 型 .雪花 型 和 星 型 -雪花 型 ,三 者 都 是 以 事实 表 为 中 心 , 不 同 
之 处 只 是 外 围 的 维 表 之 间 的 关系 不 同 而 已 。 

OD ÆW 

星 型 模式 的 每 个 维度 都 对 应 一 个 唯一 的 维 表 , 维 的 层次 关系 全 部 通过 维 表 中 的 字段 实 
现 ,所 有 与 某 个 事实 有 关 的 维度 ,都 通过 该 维度 对 应 的 维 表 直 接 与 事实 表 关 联 ,所 有 维 表 的 


主键 组 合 起 来 作为 事实 表 的 主键 ,如 图 2. 10 
所 示 。 星 型 模式 的 维 表 只 与 事实 表 发 生 关联 ， < > 
维 表 与 维 表 之 间 没有 任何 关联 ,具体 示例 如 


图 2.11 和 图 2. 12 所 示 。 
在 图 2. 11 中 ,地 域 是 一 个 与 销售 事实 表 


关联 的 维度 ,地 域 维 的 层次 是 “省 一 地 市 ”, 这 维 表 
一 层次 关系 由 维 表 中 的 省 代码 和 地 市 代码 字 
段 实现 。 图 2.10 星 型 模式 


时 间 表 


年 
月 
H 
时 间 维 主键 《pk》 
om Key 1 (pk) 
产品 销售 记录 地 域 维 表 
ELM 时 间 Cpe tol) 省 代码 
产品 类 型 描述 v (pk, fk3 省 名 称 
产品 号 产品 (pk, fk2) 地 市 代码 
产品 描述 销售 数量 amu 地 市 名 称 
产品 维 主键 (pk) 费用 地 域 维 主键 。 (pk) 
9» Key | (pk) 9» Key | (pk) 9» Key | (pk) 
图 2.11 星 型 模式 示例 一 
时 间 账目 移动 业务 网 络 类 型 
时 间 标识 地 域 标识 移动 业务 网 络 类 型 标 i 
时 间 名 称 账目 名 称 地 域名 称 移动 业务 网 络 类 型 名 称 
出 账 收入 分 档 | 
出 账 收入 标识 移动 语音 业 
出 账 收入 名 称 务 收入 情况 
BR 时 间 标 识 (FK) ES ——— — — — —— 
EAKINS E 
ARK 标识 (FK) Hn 
网 时 长 MIA 动 业 式 标 识 (FK) | umzzz ^ 1] 
同时 长 分 和 Ir yo 品牌 名 称 
在 网 时 长 分 档 名 称 性 别 标 从 (PK) 品牌 分 类 标识 (FK) 
性 别 RERO 
EA 未 识 ( m" 
性 别 标识 订购 实例 生命 周期 标识 RFK) 移动 业务 付费 方式 
性 别名 称 = ERE MENTO EBP 一 移动 业务 付费 方式 标识 
小 示 识 z E 
在 网 时 长 分 档 标识 (PK) 移动 业务 付费 方式 名 称 
职业 基本 费用 
职业 标识 所 优惠 
职业 名 称 y 
ERE 客户 级 别 订购 实例 生命 周期 
年 龄 段 标识 客户 级 别 标识 订购 实例 生命 周期 标识 
年 龄 段 名 称 客户 级 别名 称 订购 实例 生命 周期 名 称 


是 型 模式 的 特点 是 : 


。 维 表 的 非 规范 化 


是 型 模式 中 , 维 表 保 存 该 维度 的 所 有 层次 信息 ,因此 是 非 规范 化 的 ,这 样 减少 了 查询 时 


图 2.12 星 型 模式 示例 二 
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数据 关联 的 次 数 ,提高 查询 的 效率 。 但 是 由 于 维 表 保存 了 所 有 的 层次 信息 ,使 得 维 表 之 间 的 
数据 共用 性 较 差 ,例如 电信 业务 中 基站 和 受理 点 两 个 维 的 层次 关系 分 别 是 “地 市 一 区 县 一 基 
站 ”和 “地 市 一 区 县 一 受理 点 ”, 这 两 个 维 中 都 有 地 市 和 区 县 ,但 是 由 于 所 有 的 层次 信息 都 保 
存在 各 自 的 维 表 中 ,因此 地 市 和 区 县 分 别 保 存在 两 个 维 表 中 ,同一 信息 之 间 的 统一 是 通过 人 
工 维护 的 。 

。 事实 表 的 非 规范 化 

星 型 模式 中 ,所 有 维 表 都 直接 和 事实 表 关 联 , 因 此 事实 表 也 是 非 规范 化 的 ,这 样 减少 了 
查询 时 数据 关联 的 次 数 ,提高 查询 的 效率 。 但 是 这 种 方式 也 限制 了 事实 表 中 关联 维 表 的 数 
量 , 如 果 关 联 的 维 表 数 量 过 多 将 会 造成 大 量 数 据 宛 余 ,同时 对 事实 表 进 行 索引 也 很 困难 。 

。 维 表 和 事实 表 之 间 的 关系 

星 型 模式 中 , 维 表 中 的 主键 在 事实 表 中 作为 外 键 存在 ,因此 维 表 和 事实 表 的 关系 是 一 对 
多 或 一 对 一 。 如 果 维 表 和 事实 表 之 间 是 多 对 多 的 关系 时 , 则 不 能 直接 采用 星 型 模式 ,必须 通 
过 对 维 表 或 者 事实 表 的 处 理 , 如 对 维 表 中 的 成 员 组 合 进 行 编码 或 者 在 事实 表 中 加 入 新 的 字 
段 ,但 这 都 要 求 成 员 的 组 合 数量 固定 ,如 果 数 量 不 固定 ,同时 维 表 的 数据 量 又 很 大 的 情况 下 > 
星 型 模式 的 实现 较为 困难 。 

(2) 雪花 型 

事实 上 , 维 表 只 与 事实 表 关 联 是 正规 化 的 结果 。 如 果 将 经 常 合并 在 一 起 使 用 的 维度 进 
行 正 规 化 , 即 所 谓 的 雪花 型 模式 ,如 图 2. 13 所 示 。 同 星 型 模式 相 比 ,最 大 区 别 是 雪花 型 模式 
对 维 表 进行 了 规范 化 , 即 用 不 同 维 表 之 间 的 关联 实现 维 的 层次 ,具体 示例 如 图 2. 14 所 示 。 


图 2.13 雪花 型 模式 


图 2. 15 所 示 为 对 于 上 述 基站 和 受理 点 的 例子 使 用 雪花 型 模式 加 以 实现 。 

雪花 型 模式 的 特点 是 : 

。 通过 维 表 的 规范 化 实现 维 表 重 用 ,简化 维护 工作 。 但 是 ,查询 时 使 用 雪花 型 模式 要 
比 星 型 模式 进行 更 多 的 关联 操作 ,反而 降低 了 查询 效率 。 

。 雪花 型 模式 中 有 些 维 表 并 不 直接 和 事实 表 关 联 , 而 是 与 其 他 维 表 关联 ,特别 是 对 于 
派生 维和 实体 属性 对 应 的 维 而 言 ,这 样 就 减少 了 事实 表 中 的 一 条 记录 。 因 此 在 维度 
较 多 特别 是 派生 维和 实体 属性 较 多 的 情况 下 ,雪花 型 模式 较为 合适 。 但 是 当 按 派生 
维和 实体 属性 维 进 行 查询 时 ,首先 进行 维 表 之 间 的 关联 ,然后 再 与 事实 表 关联 ,因此 
查询 效率 低 于 星 型 模式 。 

。 使 用 雪花 型 模式 可 以 实现 维 表 和 事实 表 之 间 多 对 多 的 关系 ,例如 在 上 述 例子 中 加 入 销 
售 人 员 维 ,如 果 一 次 销售 可 由 多 个 员工 完成 ,采用 雪花 型 模式 实现 如 图 2. 16 所 示 。 

综 上 所 述 , 星 型 模式 结构 简单 ,查询 效率 高 。 而 雪花 型 模式 通过 维 表 的 规范 化 ,增加 了 


时 间 


年 
月 
H 
时 间 维 主键 (pk) 
9» Key 1 (pk) 
产品 销售 记录 地 域 
关于。 WES no Sas 07 
产品 号 t 
产品 描述 地 和 
产品 维 主键 (k) e 地 市 维 主键 (pk) 
om Key 1 (pk) om Key 1 (pk) om Key 1 (pk) 
产品 类 型 省 
产品 类 型 编码 省 编码 
产品 类 型 描述 省 名 称 
产品 类 型 主键 。《pk) 省 维 表 主键 k) 
om Key | (pk) om Key | (pk) 
图 2.14 雪花 型 模式 的 示例 
基站 
基站 名 称 
“Em 
m 区 县 基站 主键 (ok) 
cr 区 县 编码 omKey_ | (pk) 
地 市 编码 epu 
地 市 描述 ped EE ai 
地 市 主键 《pk) KRE (k) 受理 点 
om Key.1 (pl) os Key 1 (pl) EAS 
受理 点 名 称 
可 区 县 (fk) 
受理 点 主键 (pk) 
omKey_ 1 (pk) 


图 2.15 雪花 型 模式 的 维 表 共 用 


维 表 的 共用 性 。 实 际 应 用 中 ,经 常 将 星 型 和 雪花 型 模式 综合 起 来 ,即使 用 星 型 模式 的 同时 将 
其 中 的 一 部 分 维 表 进 行规 范 化 ,提取 一 些 公共 的 维 表 , 这 样 既 保 证 了 较 高 的 查询 效率 ,又 简 
化 了 维 表 的 维护 。 

(3) 星 型 -雪花 型 模式 

是 型 -雪花 型 模式 是 星 型 和 雪花 型 模式 的 结合 ,打破 了 星 型 模式 只 有 一 个 事实 表 的 限 
制 , 且 这 些 事实 表 共享 全 部 或 部 分 已 有 维 表 , 如 图 2. 17 所 示 。 
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时 间 
D 省 
月 省 编码 
H 省 名 称 
时 间 维 主键 (pk) 省 维 表 主键 (k) 
93 Key 1 (pk) 9» Key 1 (pk) 
产品 销售 记录 地 域 
: 时 间 (fk2》 ; 
PS T 地 域 《83) TERE m 
产品 描述 pess nd (xD Pe 1I 地 市 和 和 
产品 维 主键 (po ax p 地 市 维 主键 。 《pk) 
o» Key | (pk) T TEES o» Key 1 (pk) 
9» Key 1 (p 
产品 类 型 员工 销售 记录 销售 员工 
PR mmen o V Eram 
产品 类 型 主键 (pk) A p 销售 员工 维 主键 (pk) 
om Key | (pk) om Key 1 (pk) om Key | (pk) 


图 2.16 雪花 型 模式 实现 多 对 多 关系 


事实 表 
b» 


图 2.17 星 型 -雪花 型 模式 


3. 物理 模型 设计 

数据 仓库 的 物理 模型 设计 是 指 在 逻辑 模型 的 基础 上 ,使 用 DBMS 提供 的 功能 对 逻辑 模 
型 进行 物理 上 的 优化 , 即 根据 数据 仓库 的 特点 和 性 能 要 求 ,将 逻辑 模型 转化 成 数据 在 物理 设 
备 上 的 存储 结构 与 存 取 方 法 的 过 程 ,如 表 结 构 、 索 引 、 数 据 约束 、 数 据 类 型 和 数据 格式 设计 
等 ,由 项 目 经 理 和 数据 仓库 架构 师 共同 完成 。 

具体 地 ,物理 模型 设计 主要 包括 如 下 几 个 方面 。 

1) 数据 存储 结构 设计 

数据 存储 结构 设计 主要 包括 数据 文件 存储 设计 、 数 据 文件 存储 分 配 以 及 数据 缓冲 大 小 
等 ,其 目标 是 提高 系统 的 I/O 能 力 。 

作为 数据 仓库 的 基础 ,DBMS 往往 可 以 向 用 户 提供 多 种 存储 结构 ,每 种 存储 结构 各 有 
其 独特 的 实现 方式 。 在 利用 DBMS 构建 数据 仓库 时 ,应 当 统 一 考虑 数据 存储 时 间 、 存 储 空 
间 效 率 .数据 维护 成 本 等 各 方面 因素 ,选用 合适 的 存储 结构 。 


2) 数据 索引 策略 设计 

数据 索引 策略 设计 是 指 根据 数据 的 特征 ,如 数据 的 基数 和 数据 的 使 用 情况 选择 适当 的 
索引 ,例如 使 用 Sybase 数据 库 时 ,对 低 基 数 的 数据 可 以 建立 位 图 (Bitmap) 索 引 。 

数据 仓库 中 数据 存储 量 十 分 庞大 , 远 远 超 过 一 般 的 数据 库 系 统 。 当 数据 仓库 数据 的 更 
新 频率 不 高 ,往往 采用 定期 导入 新 数据 的 方法 。 因 此 ,为 了 有 效 提 高 数据 仓库 的 运行 效率 ， 
可 对 常见 查询 所 访问 的 数据 进行 分 析 的 基础 上 ,设计 较为 复杂 的 索引 策略 。 由 于 数据 仓库 
的 数据 具有 非 易 失 性 ,因此 尽管 索引 的 设计 与 建立 工作 量 较 大 , 却 易于 维护 。 

3) 软 硬 件 配置 确定 

数据 仓库 与 其 他 业务 系统 不 同 ,尤其 需要 对 数据 容量 进行 估算 ,这 是 由 于 数据 仓库 是 对 
以 往 历史 数据 的 集成 ,如 果 设 计时 不 加 以 考虑 ,很 快 就 会 造成 灾难 性 后 果 。 数 据 仓库 的 容量 
估算 应 该 是 可 预见 的 ,首先 确定 核心 明细 数据 的 存储 年 限 , 相 关 表 的 平均 字段 长 度 值 X 每 年 
的 记录 数 X (每 年 预计 的 增长 ) ,然后 再 加 上 20% 的 克 余 ,以 及 磁盘 预 留 的 20% 的 元 余 , 即 可 
以 得 到 数据 仓库 的 数据 量 估 算 值 。 

数据 仓库 的 处 理 能 力 不 仅 与 容量 有 关 , 还 与 具体 的 关系 数据 库 的 性 能 息息相关 。 如 何 
在 Oracle, SQL Server、Sybase 甚至 MySQL 之 间 寻 找平 衡 , 既 要 考虑 实际 的 预算 ,也 要 视 实 
际 需求 而 定 。 关 于 硬件 的 配置 , 既 需 要 发 挥 软件 的 功能 ,满足 实际 的 处 理 要 求 ,也 要 为 将 来 
的 系统 扩展 保留 一 定 空间 。 

4) 数据 存储 策略 设计 

由 于 同一 个 主题 的 数据 可 以 存放 在 不 同 的 介质 上 ,为 了 提高 存 取 效 率 , 设 计 者 常常 按照 
数据 的 重要 程度 粒度、 使 用 频率 以 及 响应 时 间 等 要 求 将 数据 分 别 存放 在 不 同 的 存储 设 
备 上 。 

数据 存储 策略 包括 表 的 归并 、 表 的 物理 分 割 和 表 的 预 联接 等 。 

(1) 表 的 归并 

表 的 归并 是 指 将 用 户 经 常 要 查询 的 放 在 一 起 ,减少 数据 1/0 次 数 ,提高 查询 效率 , 表 的 
归并 是 DBMS 提供 的 功能 。 

(2) 表 的 物理 分 割 

表 的 物理 分 割 是 指使 用 DBMS 提供 的 功能 ,对 逻辑 模型 中 的 数据 进行 再 次 的 分 离 。 通 
常 , 罗 辑 模型 按照 一 定 的 业务 规则 对 数据 进行 分 割 ,而 物理 模型 一 般 是 按照 数据 的 使 用 信息 
对 数据 进行 分 割 ,实际 中 将 数据 的 逻辑 分 割 和 物理 分 割 综合 应 用 。 例 如 ,在 逻辑 模型 中 对 话 
单 表 按 照 主 叫 号 码 的 所 属地 域 进行 分 表 设 计 , 在 物理 模型 中 对 每 个 表 再 按照 通话 日 期 进 一 
步 分 区 。 

(3) 表 的 预 联接 

表 的 预 联接 是 指 根据 数据 的 使 用 情况 ,利用 DBMS 提供 的 功能 (例如 Oracle 的 实体 化 
视图 .Sybase 的 联接 索引 等 ) ,对 经 常 关联 的 表 事 先进 行 预 联接 处 理 , 以 提高 数据 访问 速度 。 

5) 表 的 物理 特性 设计 

表 的 物理 特性 设计 是 指 对 表 的 初始 块 大 小 等 物理 特性 的 设计 ,主要 参考 表 中 数据 量 的 
情况 ,通过 对 物理 特性 的 设计 提高 数据 生成 效率 。 

6) 存储 分 配 参 数 确 定 

在 创建 传统 数据 库 的 过 程 中 ,需要 确定 数据 块 大 小 、 缓 冲 区 大 小 以 及 缓冲 区 数据 等 具体 
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与 数据 存储 分 配 相关 的 参数 。 通 常 不 同 的 数据 库 厂商 都 会 根据 其 产品 的 应 用 实例 给 出 推荐 
的 配置 参数 , 供 设计 人 员 参 考 进行 初始 配置 ,然后 在 系统 维护 过 程 中 根据 实际 情况 (数据 的 
增长 速度 .用户 查 询 的 数据 量 和 频率 ) 进 行 调整 。 数 据 仓库 是 建立 在 DBMS 上 的 ,因此 两 者 
在 这 一 点 上 相同 。 


2.1.4 ETL 设计 


除了 数据 模型 设计 外 ,数据 仓库 设计 还 包括 数据 装载 接口 设计 。 数 据 模型 设计 即 前 面 
提 及 的 数据 仓库 概念 模型 设计 、 逻 辑 模型 设计 和 物理 模型 设计 ; 数据 装载 接口 设计 即 完成 
从 操作 型 系统 的 数据 表 中 抽取 、 转 换 、 清 洗 以 及 将 细节 数据 聚合 为 不 同 综合 层次 的 数据 , 主 
要 包括 : 

。 扫描 模块 的 设计 。 扫 描 模 块 用 于 对 现 有 业务 系统 进行 有 效 的 扫描 ,以 便 获取 需要 追 
加 的 数据 集合 。 
定义 数据 转换 和 清洗 规则 。 数 据 仓库 需要 从 多 个 不 同 的 数据 源 中 抽取 数据 ,不 同 数 
据 源 的 数据 具有 不 一 致 性 ,良好 的 数据 转换 和 清洗 规则 是 数据 质量 的 重要 保证 。 
数据 抽取 模块 的 设计 。 将 需要 追加 的 数据 通过 格式 转换 .清洗 转 换 为 数据 仓库 的 细 
节 表 。 
综合 模块 的 设计 。 将 细节 数据 聚合 成 各 个 综合 层次 的 数据 。 

数据 装载 接口 设计 的 重点 是 ETL 设计 ,下 面 将 详细 加 以 介绍 。 

目前 ,数据 仓库 接口 的 实现 方法 有 两 种 : 一 是 程序 员 自 行 编写 设计 处 理 集成 的 接口 程 
序 , 即 通过 代码 实现 ETL 过 程 ; 二 是 购买 ETL 软件 。 

如 果 将 数据 仓库 数据 模型 设计 比喻 为 一 座 大 厦 的 设计 蓝图 ,数据 是 砖 瓦 , 则 ETL 就 是 
建设 大 厦 的 过 程 。 在 整个 数据 仓库 的 实施 过 程 中 ,用 户 需求 分 析 和 模型 设计 是 最 难 的 ,而 
ETL 的 设计 和 实施 则 是 工作 量 最 大 的 , 约 占 整 个 项 目的 60% 一 80% ,这 是 国内 外 众多 实践 
中 形成 的 普遍 共识 。 

1. 主要 任务 

ETL 的 主要 任务 包括 如 下 几 方 面 的 内 容 。 

1) 数据 抽取 

这 一 部 分 需要 在 调研 阶段 做 大 量 的 工作 ,首先 需要 了 解数 据 来 自 哪 几 个 业务 系统 ,各 业 
务 系统 的 数据 库 服务 器 运行 哪 种 DBMS, 是 否 存 在 手工 数据 ,手工 数据 量 多 大 ,是 否 存 在 非 
结构 化 的 数据 等 , 当 收 集 完 这 些 信息 后 才 可 以 进行 数据 抽取 的 设计 。 

。 与 存放 DW 的 数据 库 系统 相同 的 数据 源 的 处 理 方法 

对 于 这 一 类 数据 源 , 设 计 上 比较 容易 。 一 般 情况 下 ,DBMS 都 提供 数据 库 链接 功能 ,在 
DW 服务 器 和 原 业 务 系统 之 间 建 立 直接 的 链接 关系 则 可 以 通过 SQL 语句 直接 访问 。 

* 与 DW 数据 库 系 统 不 同 的 数据 源 的 处 理 方法 

对 于 这 一 类 数据 源 , 一 般 情况 下 也 可 以 通过 ODBC 的 方式 建立 数据 库 链 接 ,如 SQL 
Server 和 Oracle 之 间 。 如 果 不 能 建立 数据 库 链接 ,可 以 通过 两 种 方式 完成 : 一 是 利用 工具 
将 源 数据 导出 到 . txt 或 者 . xls 文件 ,然后 再 将 这 些 源 系统 文件 导入 ODS; 二 是 通过 程序 接 
口 完成 。 


。 文件 类 型 数据 源 (. txt、. xls) 

可 以 培训 业务 人 员 利 用 数据 库 工 具 将 这 类 数据 导入 到 指定 的 数据 库 , 然 后 从 指定 的 数 
据 库 中 抽取 。 或 者 借助 工具 实现 ,如 SQL Server 的 SSIS 服务 的 平面 数据 源 和 平面 目标 等 
组 件 导 入 ODS。 

。 增 量 更 新 的 问题 

对 于 数据 量 大 的 系统 ,必须 考虑 增 量 抽取 情况 下 ,业务 系统 记录 业务 发 生 的 时 间作 为 增 
量 标志 , 即 每 次 抽取 前 首先 判断 ODS 中 记录 最 大 的 时 间 , 然 后 根据 这 一 时 间 去 业务 系统 抽 
取 大 于 这 一 时 间 的 所 有 记录 。 一 般 情况 下 ,业务 系统 没有 或 者 部 分 有 时 间 戳 。 

2) 数据 清洗 

数据 清洗 (Data Cleansing. Data Cleaning. Data Scrubbing) 是 一 个 减少 错误 和 不 一 致 
性 ,解决 对 象 识别 的 过 程 。 一 般 情 况 下 ,数据 仓库 分 为 ODS 和 DW 两 部 分 。 通 常 是 从 业务 
系统 到 ODS 需要 进行 清洗 , 即 过 滤 脏 数据 和 不 完整 的 数据 ; 再 从 ODS 到 DW 需要 进行 转 
换 , 即 进行 一 些 业 务 规则 的 计算 和 聚合 。 数 据 清洗 的 任务 是 过 滤 那 些 不 符合 要 求 的 数据 ,将 
过 滤 的 结果 交 给 业务 主管 部 门 ,确认 是 否 直接 过 滤 还 是 由 业务 部 门 修正 后 再 进行 抽取 。 数 
据 清洗 的 目的 是 保证 数据 仓库 的 数据 质量 。 

数据 质量 定义 为 数据 的 一 致 性 (Consistency) \ 正 确 性 (Correctness) 完整 性 (Completeness) 
和 最 小 性 (Minimality) 四 个 指标 在 系统 中 得 到 满足 的 程度 。 其 中 : 

。 一 致 性 ,是 指数 据 的 值 和 描述 在 全 局 即 数据 仓库 中 均 表示 相同 的 含义 。 

* 正确 性 ,是 指数 据 的 值 和 描述 一 定 是 真实 的 和 业务 系统 保持 一 致 的 。 

”完整 性 ,是 指 确保 每 一 条 数据 都 必须 是 有 意义 的 (不 能 为 NULL 值 )。 

。 最 小 性 ,是 指数 据 的 值 和 描述 有 且 仅 有 一 个 含义 。 

根据 处 理 的 是 单数 据 源 还 是 多 数据 源 以 及 是 模式 层 的 还 是 实例 层 的 ,可 将 数据 质量 问 
题 划分 为 四 类 : 单数 据 源 模式 层 问题 (如 缺少 完整 性 约束 、 糟 糕 的 模式 设计 等 )、 单 数据 源 实 
例 层 问题 (如 数据 输入 错误 ) ,多 数据 源 模 式 层 问题 (如 异 构 数 据 模 型 和 模式 设计 等 ) ,多 数据 
源 实例 层 问题 (如 元 余 、 冲 突 和 不 一 致 的 数据 等 )。 单 数据 源 中 出 现 的 问题 在 多 数据 源 中 也 
可 能 出 现 , 并 且 这 种 现象 是 普遍 的 ; 模式 层 的 问题 也 会 体现 在 实例 层 。 模 式 层 的 问题 可 以 
通过 改进 模式 设计 、 模 式 转化 和 模式 集成 加 以 解决 ; 但 实例 层 的 问题 在 模式 层 上 是 不 可 见 
的 ,所 以 数据 清洗 主要 针对 实例 层 的 数据 质量 问题 。 

实际 上 ,数据 清洗 是 利用 诸如 数理 统计 数据 挖掘 或 预定 义 的 数据 清洗 规则 等 将 脏 数据 
转化 为 满足 要 求 的 数据 。 

按照 数据 清洗 的 实现 方式 和 范围 ,可 将 数据 清洗 划分 为 四 种 类 型 , 即 : 

。 手工 实现 方式 。 用 人 工 检 测 所 有 的 错误 并 改正 ,只 适用 于 小 数据 量 的 数据 源 。 

。 编写 专门 的 应 用 程序 。 通 过 编写 程序 检测 /改正 错误 。 但 通常 数据 清洗 是 一 个 反复 

的 过 程 ,将 导致 清理 程序 复杂 、 系 统 工作 量 大 。 

。 某 类 特定 应 用 领域 的 ,如 运用 概率 统计 方法 查找 数值 异常 的 记录 。 

。 与 特定 应 用 领域 无 关 的 ,主要 集中 于 重复 记录 的 检测 /删除 。 

数据 清洗 是 ETL 的 一 个 重要 环节 ,其 主要 任务 是 检测 并 删除 /改正 将 装载 到 数据 仓库 
的 脏 数 据 。 由 于 数据 仓库 的 多 种 异 构 数 据 源 和 海量 数据 ,数据 清洗 应 是 与 领域 无 关 的 ,而 且 
数据 清洗 不 是 ETL 中 一 个 独立 的 步骤 ,需要 与 数据 抽取 、 转 换 /集成 和 装载 协同 配合 ,并 循 
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环 反 复 进 行 。 如 果 数 据 源 是 一 个 功能 较 强 的 DBMS( 如 图 2. 18 所 示 的 数据 源 1 和 数据 源 2), 
则 可 以 在 数据 抽取 时 使 用 SQL 完成 一 部 分 的 数据 清洗 工作 ,但 是 有 一 些 数据 源 不 提供 这 种 
功能 (如 图 2. 18 所 示 的 数据 源 3) ,只 能 直接 将 数据 从 数据 源 抽 取出 来 ,然后 在 数据 转换 时 
进行 清洗 。 数 据 仓 库 的 数据 清洗 主要 还 是 在 数据 转换 时 进行 的 ,使 用 DBMS 的 转换 清洗 功 
能 完成 大 部 分 的 工作 ,这 样 数 据 清 洗 就 充分 利用 了 DBMS 提供 的 功能 。 


数据 源 1 


e] 


转换 和 加 载 


中 间 数 据 库 
(ODS) 


2.18 数据 清洗 过 程 


数据 清洗 是 一 个 反复 的 过 程 , 不 可 能 在 几 天 内 完成 ,只 有 不 断 地 发 现 问题 .解决 问题 。 
对 于 是 否 过 滤 ,是 否 修正 往往 要 求 用 户 确 认 。 对 于 过 滤 掉 的 数据 , 写 人 Excel 文件 或 者 将 过 
滤 数 据 写 人 数据 表 , 在 初始 阶段 可 以 每 天 向 业务 部 门 发 送 过 滤 数据 的 邮件 ,促使 他 们 尽快 修 
正 错误 ,同时 也 可 以 作为 将 来 验证 数据 的 依据 。 
3) 数据 转换 
数据 仓库 抽取 数据 的 过 程 是 从 业务 数据 库 开始 的 ,中 间 会 经 过 数据 的 转换 过 程 , 变 成 数 
据 仓 库 需 要 的 数据 。 在 进行 数据 转换 之 前 ,必须 首先 进行 数据 映射 (Source Data 
Mapping) ,明确 定义 数据 仓库 的 每 个 表 、 每 个 字段 来 自 源 系统 或 接口 单元 中 的 哪 张 表 、 哪 个 
字段 。 这 种 映射 关系 可 能 很 简单 ,例如 表 是 完全 一 对 一 的 关系 ,直接 复制 到 数据 仓库 即 可 ; 
也 可 能 很 复杂 ,数据 仓库 的 某 张 表 可 能 来 源 于 源 系统 中 的 多 个 表 , 这 些 源 表 通 过 一 定 的 关系 
被 关联 起 来 ,然后 对 表 中 的 一 些 字 段 进 行 转 换 后 , 变 成 数据 仓库 中 目标 表 的 对 应 字段 。 数 据 
转换 的 任务 是 对 不 一 致 数据 的 转换 、 数 据 粒度 的 转换 以 及 一 些 业 务 规则 的 计算 。 
。 不 一 致 数据 的 转换 : 这 是 一 个 整合 的 过 程 ,将 不 同业 务 系 统 的 相同 类 型 的 数据 统 
一 。 例 如 同一 个 代理 商 在 结算 系统 的 编码 是 XX0001, 而 在 客户 关系 管理 
(Customer Relationship Management,CRM) 系 统 的 编码 是 YY0001, 这 样 在 抽取 后 
统一 转换 成 同一 个 编码 。 
。 数据 粒度 的 转换 : 业务 系统 一 般 存储 细节 数据 ,而 数据 仓库 的 数据 是 用 来 分 析 的 ， 
不 需要 细节 数据 。 一 般 情况 下 ,会 将 业务 系统 的 数据 按照 数据 仓库 的 粒度 进行 
RE. 
。 业务 规则 的 计算 : 不 同 的 企业 拥有 不 同 的 业务 规则 和 数据 指标 ,这 些 指 标 有 时 不 是 
简单 的 运算 能 够 完成 的 ,需要 在 ETL 中 将 这 些 指 标 进 行 计算 后 存储 在 数据 仓库 中 ， 
供 分 析 使 用 。 
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4) 数据 装载 

数据 装载 是 将 从 数据 源 抽取 、 转 换 、 清 洗 后 的 数据 装载 到 数据 仓库 中 。 数 据 装载 策略 需 
考虑 装载 周期 以 及 数据 追加 策略 两 方面 的 内 容 。 根 据 业务 数据 的 实际 情况 ,装载 周期 应 综 
合 考虑 业务 分 析 需 求 和 系统 装载 代价 ,对 不 同业 务 系统 的 数据 采用 不 同 的 数据 装载 周期 ,但 
必须 保持 同一 时 间 业 务 数 据 的 完整 性 。 数 据 追 加 策略 根据 数据 的 抽取 策略 以 及 业务 规则 确 
定 , 一 般 分 为 直接 追加 、 全 部 覆盖 和 更 新 追加 三 种 类 型 。 

。 直接 追加 是 指 每 次 装载 时 直接 将 数据 追加 到 目标 表 。 

。 全 部 覆盖 是 指 如 果 抽取 数据 本 身 已 经 包括 数据 的 当前 和 所 有 历史 状况 ,可 对 目标 表 

采用 全 部 覆盖 的 方式 。 
。 更 新 追加 是 指 对 于 需要 连续 记录 业务 的 状态 变化 ,并 用 当前 最 新 状态 与 历史 状态 进 
行 对 比 的 情况 ,可 以 采用 更 新 追加 的 方式 。 

2. 设计 原则 

由 于 数据 源 的 多 样 性 ,数据 传输 条 件 不 确定 性 以 及 用 户 对 最 终 统计 数据 的 选择 性 等 因 
素 , 使 得 ETL 设计 不 仅 要 考虑 业务 数据 处 理 的 要 求 , 还 应 考虑 数据 传输 过 程 中 如 何 解决 上 
述 问题 。ETL 设计 一 定 是 针对 具体 应 用 ,不 同 的 业务 和 不 同 的 分 析 模 型 的 要 求 ,所 以 ETL 
整体 架构 的 灵活 性 和 扩展 性 非常 重要 。 

ETL 设计 应 遵循 的 原则 如 下 : 

CD ETL 设计 前 需要 根据 业务 特点 确定 分 析 主 题 和 分 析 模 型 的 结构 ,区 分 维度 数据 和 
事实 数据 ,建立 相应 的 数据 仓库 模型 。 在 设计 过 程 中 需要 考虑 是 否 需 要 预 留 字段 ,增加 属 

(2) 数据 粒度 在 同一 立方 体 (Cube) 中 必须 统一 。 事 实 表 的 粒度 就 是 维 表 与 事实 表 相 关 
联 的 最 小 级 别 , 尽 可 能 采用 粗 的 粒度 以 有 效 减 少数 据 量 , 但 是 不 同 的 分 析 可 能 存在 差异 , 例 
如 话 务 量 趋势 预测 的 主题 中 可 以 以 小 时 为 粒度 ,但 是 在 一 些 实时 性 要 求 较 高 的 忙 时 话 务 量 
分 析 主 题 中 需要 采用 15 分 钟 甚 至 5 分 钟 的 粒度 。 

(3) 数据 周期 的 确定 ,在 ETL 设计 时 需要 事先 确定 抽取 的 时 间 , 这 可 能 需 根据 用 户 对 
实时 性 的 要 求 作为 调整 的 依据 。 

(4) 尽量 采用 增 量 的 抽取 方式 以 减 小 每 次 抽取 的 数据 量 。 

(5) 数据 流 和 工作 流 的 概念 。 在 ETL 中 需要 考虑 数据 在 每 个 步骤 中 的 状态 和 转换 行 
为 ,数据 的 清洗 、 转 换 和 加 载 过程 是 由 很 多 步骤 完成 的 ,每 一 步骤 一 定 是 数据 的 一 个 原子 业 
务 操 作 。 步 又 可 以 根据 需要 进行 调整 ,在 数据 流 可 能 会 出 现 分 支 的 情况 , 即 在 不 同 条 件 下 采 
用 不 同 的 处 理 步骤 。 

(6) 流程 的 异常 处 理 。 在 流程 中 需要 考虑 各 种 可 能 的 异常 ,如 网 络 闪 断 数据 的 延迟 
等 。 因 此 ,需要 在 流程 中 加 入 一 些 补救 措施 予以 纠正 ,保证 导入 数据 仓库 数据 的 绝对 正确 
(但 是 流程 的 设计 尽量 依照 简单 、 高 效 的 原则 )。 

CD ETL 的 调整 .运行 管理 以 及 监控 。ETL 程序 的 运行 应 该 有 相关 的 管理 和 监控 工 
具 。 一 方面 用 于 ETL 的 设置 和 调整 ; 另 一 方面 也 是 便于 ETL 出 现 异常 时 能 够 及 时 通过 人 
工 方式 干预 ,保证 ETL 正常 运行 。 

(8) 针对 业务 需求 进行 ETL 的 配置 和 设置 ,方便 专业 维护 人 员 和 开发 人 员 对 抽取 任务 
进行 调整 和 灵活 配置 。 
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(9) Cube 的 管理 。 除 了 对 数据 仓库 的 管理 和 数据 的 处 理 之 外 ,ETL 的 一 项 很 重要 的 工 
作 是 对 Cube 的 管理 。 根 据 Cube 特性 考虑 对 维度 和 Cube 的 更 新 ,以 及 对 Cube 分 区 的 新 
建 . 处 理 和 合并 等 一 系列 操作 。 
(10) 数据 仓库 有 一 个 初始 化 的 过 程 , 即 将 以 前 的 业务 数据 进行 整理 和 加 载 ,但 是 数据 
量 非 常 巨 大 ,需要 花费 较 长 的 时 间 ,而 且 抽 取 的 策略 与 平时 的 不 同 。 
(11) 程序 具有 自修 复 功 能 。 在 任何 一 个 步骤 出 现 异 常 ,ETL 程序 都 能 够 回 到 抽取 前 
的 状态 ,而 不 需要 人 工 干预 ,更 不 能 影响 已 抽取 的 数据 。 
3. 主要 步骤 
下 面 介 绍 ETL 设计 的 主要 步骤 。 
1) 设计 数据 准备 区 的 数据 结构 
数据 准备 区 是 ETL 专门 用 于 对 数据 进行 抽取 、 清 洗 和 转换 等 处 理 的 临时 数据 库 。 需 要 
根据 实际 的 需求 设计 数据 准备 区 的 库 表 结构 。 
2) 定义 数据 抽取 规则 
数据 抽取 首先 需要 定义 数据 抽取 规则 ,记录 在 “数据 抽取 规则 表 ” 中 ,然后 再 设计 数据 抽 
取 流 程 。 
3) 定义 数据 清洗 规则 
数据 清洗 是 为 了 处 理 数据 源 中 存在 的 错误 \ 不 一 致 或 无 用 的 数据 , 即 “ 脏 数据 *。 在 清洗 
“ 脏 数 据 ” 之 前 ,必须 清楚 存在 哪些 “ 脏 数 据 ”, 记 录 在 “ 脏 数据 登记 表 ” 中 。 对 发 现 的 “ 脏 数 据 ” 
逐一 确定 清洗 转换 规则 ,记录 在 “清洗 转换 规则 表 ” 中 。 
4) 定义 数据 转换 规则 
数据 转换 是 将 抽取 的 数据 进行 过 滤 、 合 并、 解码 和 翻译 等 ,为 数据 仓库 创建 有 效 数 据 
的 过 程 。 转 换 的 过 程 需要 理解 业务 侧重 点 .信息 需求 和 目前 可 用 的 源 数据 。 通 常数 据 抽 
取 完 毕 后 ,应 根据 企业 业务 的 具体 需求 ,设计 和 定义 一 系列 的 数据 转换 规则 ,转换 规则 主要 
包括 : 
。 字段 级 。 定 义 数 据 类 型 转换 .增加 “上下文 "数据 ,如 时 间 戳 。 
: 多 数据 源 整合 。 字 段 映 射 (Mapping) ,代码 变换 (Transposing) 将 不 同 数据 源 中 的 数 
据 值 规范 成 数据 仓库 的 数据 值 。 例 如 ,将 源 系 统 非 英文 编码 转换 成 数据 仓库 英文 编 
码 ,将 源 系统 信息 编码 转换 成 数据 仓库 信息 编码 等 。 合 并 (Merging) 将 两 个 或 更 多 
源 系 统 记录 合并 成 一 个 输出 或 目标 记录 。 派 生 (Derivation) 根 据 源 数据 ,利用 公式 
产生 数据 仓库 需要 的 数据 。 例 如 用 身份 证 号 码 计算 生日 .性 别 和 年 龄 等 。 
* 聚合 (Aggregation) 和 汇总 (Summarization) 。 
5) 设计 ETL 流程 
ETL 流程 设计 是 定义 ETL 流程 的 步骤 ,并 确定 每 一 步骤 需要 完成 的 工作 ,以 流程 图 的 
形式 加 以 描述 。 
4. 工具 
ETL 实现 方式 有 两 种 , 即 购买 ETL 工具 和 手工 编程 。 表 2. 2 给 出 了 这 两 种 方式 的 比 
较 ,为 企业 最 终 根据 实际 情况 选择 合适 的 方式 提供 参考 ,ETL 工具 早期 的 数据 迁移 大 多 是 
由 开发 人 员 手 工 编程 实现 的 。 
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表 2.2 购买 ETL 工具 和 手工 编码 实现 ETL 的 比较 


性 能 ETL 工 具 手工 编码 
灵活 性 比较 灵活 非常 灵活 

难 易 程度 相对 容易 要 求 一 定 技术 水 平 
管理 和 维护 容易 较 难 

性 能 和 效率 较 高 取决 代码 的 质量 
开发 周期 较 短 较 长 

工作 量 中 等 较 重 

价格 较 高 相对 较 低 


选择 ETL 工具 时 应 考虑 可 能 影响 ETL 功能 的 主要 因素 ,主要 包括 平台 的 支持 ; 数据 
转换 功能 ; 管理 和 调度 的 功能 ; 集成 和 开发 性 以 及 对 元 数据 的 管理 等 。 目 前 ,市 场 上 主流 
的 ETL 工具 分 为 两 大 类 : 一 类 是 ETL 厂商 提供 的 产品 ,一般 都 具有 较 完 善 的 体系 结构 和 
功能 。 典 型 产品 包括 Ascential DataStageXE 和 Informatica; 另 一 类 是 数据 库 厂 商 提供 的 
整体 数据 仓库 解决 方案 和 产品 ,这 类 产品 在 提供 数据 仓库 存储 .设计 和 展现 工具 的 同时 提供 
相应 的 ETL 工具 ,它们 对 相关 产品 具有 很 好 的 支持 并 能 发 挥 出 最 大 效率 ,但 结构 封闭 ,对 其 
他 厂商 产品 的 支持 有 限 ,如 Oracle Warehouse Builder 和 IBM Warehouse Manager 等 。 

评价 ETL 工具 性 能 的 主要 因素 包括 : 

。 可靠 性 一 一 系统 具有 高 的 容错 性 和 故障 恢复 能 力 , 具 备 完善 的 备份 恢复 等 机 制 保 


证 系统 的 稳定 性 和 可 用 性 。 
”可 衡量 性 一 一 系统 的 性 能 指标 可 以 根据 系统 的 软 硬 件 配置 进行 调整 ,系统 扩展 
性 强 。 


* 人 性 能 一 一 系统 具备 并 行 计算 、 负 载 调度 等 保障 系统 性 能 的 良好 机 制 和 能 力 。 

。 代码 生成 能 力 一 一 是 指 将 图 形 化 操作 生成 的 ETL 过 程 转换 为 标准 SQL 或 系统 专 
用 存储 过 程 的 能 力 。 

。 开 发 一 一 系统 提供 的 开发 接口 的 通用 性 、 灵 活性 、 功 能 性 决定 了 系统 开发 的 工作 量 
和 难度 。 

* 元 数据 管理 一 一 系统 可 以 维护 ETL 中 的 技术 元 数据 和 业务 元 数据 。 

。 管 理 一 一 ETL 的 管理 包括 系统 的 安装 .配置 和 维护 。 

四 种 常用 ETL 工具 的 综合 比较 如 表 2. 3 所 示 。 


表 2.3 四 种 常用 ETL 工具 的 综合 比较 


可 靠 性 | 可 衡量 性 | ”性 能 | 代码 生成 能 力 | 开发 | 元 数据 管理 管理 
Power Mart B B A A A B A 
DataStage B B A A A B A 
OWB B B C B B c B 
DB2 WM B A C B B C B 


GE: A 一 优秀 ; B 一 较 好 ; C 一 一 般 ) 
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2.2 数据 仓库 实现 


1. 数据 仓库 的 实现 方法 

数据 仓库 的 实现 方法 主要 包括 自 顶 向 下 自 底 向 上 、 平 行 开 发 .有 反馈 的 自 顶 向 下 .有 反 
馈 的 自 底 向 上 等 ,这 里 主要 介绍 当前 业界 流行 的 自 项 向 下 、 自 底 向 上 和 平行 开发 三 种 方法 。 

1) 自 项 向 下 

这 是 一 种 由 整体 到 局 部 ,逐步 细 化 的 实现 方法 。 首 先 对 分 散在 各 业务 数据 库 的 数据 特 
征 进 行 分 析 , 在 此 基础 上 实施 数据 仓库 的 总 体 设计 和 规划 ,准备 元 数据 。 随 后 ,进行 外 部 数 
据 源 的 数据 抽取 、 转 换 和 加 载 等 一 系列 处 理 , 并 将 处 理 后 的 数据 导入 数据 仓库 ,元 数据 也 同 
时 导入 ,从 而 建立 一 个 完整 的 数据 仓库 ,并 针对 各 个 主题 建立 数据 集 市 ,以 满足 分 析 决 策 的 
需求 ,如 图 2. 19 所 示 , 其 中 数据 集 市 是 数据 仓库 的 真子 集 。 数 据 仓 库 的 实现 过 程 直 观 、 清 
晰 \ 易 于 理解 ,只 要 对 外 部 数据 源 和 所 支持 的 决策 有 和 较 深 入 的 理解 ,保证 各 数据 集 市 都 是 数据 
仓库 的 真子 集 , 则 可 以 完全 消除 信息 之 间 的 “蛛网 ”现象 。 其 不 足 之 处 是 要 求 设计 者 对 业务 有 
深入 的 理解 ,系统 设计 规模 偏 大 ,实施 周期 过 长 ,见效 缓慢 ,尤其 在 项 目 实施 初期 见效 不 明显 。 

2) 自 底 向 上 

一 般 企业 在 构建 数据 仓库 时 ,往往 准备 的 数据 规模 偏 小 ,决策 目标 不 明确 ,并 且 和 希望 数 
据 仓 库 能 较 快 地 发 挥 作用 ,产生 效益 。 为 了 满足 上 述 要 求 , 并 克服 自 项 向 下 的 不 足 , 自 底 向 
上 应 运 而 生 。 

与 自 顶 向 下 相反 , 自 底 向 上 的 设计 思路 是 先 具体 ,后 综合 。 首 先 ,将 企业 内 部 各 部 门 的 
需求 视 为 分 解 后 的 决策 子 目 标 ,并 针对 这 些 子 目 标 建立 各 自 的 数据 集 市 ,从 而 获得 最 快 的 回 
报 。 在 此 基础 上 ,对 系统 不 断 扩充 ,逐步 形成 完善 的 数据 仓库 ,以 实现 对 企业 决策 的 支持 。 
由 于 数据 集 市 结构 简单 ,数据 的 综合 度 较 低 , 因 此 不 需要 创建 数据 仓库 所 必需 的 元 数据 部 
件 。 自 底 向 上 的 实现 方法 如 图 2. 20 所 示 。 其 优点 是 投资 小 、 见 效 快 。 由 于 部 门 级 的 数据 结 
构 简单 ,决策 需求 明确 ,因此 易于 实现 。 但 是 由 于 数据 集 市 缺少 元 数据 ,最 终 构建 数据 仓库 
的 过 程 具有 相当 的 难度 ,并 有 可 能 影响 数据 仓库 整体 结构 的 合理 性 以 及 系统 的 运行 效率 。 


决策 分 析 
"mv 决策 分 析 


1 
SES t 


数据 集 市 
四 白白 an 
数据 源 


图 2.19 自 顶 向 下 的 数据 仓库 实现 方法 图 2.20 自 底 向 上 的 数据 仓库 实现 方法 
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3) 平行 开发 


平行 开发 是 指 在 同一 个 模型 的 指导 下 ,建立 数据 决策 分 析 
仓库 的 同时 ,建立 起 若干 数据 集 市 ,如 图 2. 21 所 示 。 li 
这 种 方法 是 在 自 顶 向 下 的 基础 上 ,同时 吸收 了 自 底 向 KC 23 
上 的 优点 ,因此 可 以 认为 是 两 种 方法 的 有 机 结合 。 
在 平行 开发 中 ,数据 仓库 和 数据 集 市 遵循 统一 的 
数据 模型 的 指导 ,同时 建立 .避免 了 建立 相互 独立 的 数 AN N 


据 集 市 的 盲目 性 ,有 效 减 少数 据 的 不 一 致 和 宛 余 。 其 数据 仓库 模型 
核心 为 两 部 分 : 一 是 统一 的 “全 局 元 数据 中 心 库 ” Foie HE l 
(GMR) ,记录 数据 仓库 的 主题 域 .通用 维 、 业 务 规则 和 数据 集 市 
其 他 各 种 元 数据 ; 其 二 是 “动态 数据 存储 区 ”(DDS) «f£ 
储 从 数据 源 中 抽取 的 数据 ,并 为 进一步 处 理 做 好 准备 。 Wd 
GMR 和 DDS 不 是 一 成 不 变 的 ,它们 都 随 着 数据 源 以 
及 决策 需求 的 变化 而 改变 。 四 向 

第 一 种 方法 类 似 于 软件 工程 中 * 自 项 向 下 ”, 投 资 数据 源 
大 \ 周 期 长 。 第 二 种 方法 恰恰 相反 ,类 似 于 软件 工程 中 图 2.21 平行 开发 的 数据 仓库 实现 方法 
“ 自 底 向 上 ”的 方法 ,投资 少 、 周 期 短 且 易 见 成 效 ,但 由 
于 设计 之 初 是 以 特定 的 部 门 级 主题 为 框架 ,向 其 他 的 主题 和 部 门 扩充 往往 比较 困难 。 实 际 
中 ,大 多 采用 第 二 种 方法 。 

“ 自 底 向 上 ”建立 数据 仓库 ,并 不 意味 着 不 需要 在 设计 阶段 的 长 远 规划 。 采 用 逐步 积累 
的 方式 建立 数据 仓库 ,其 最 大 的 问题 是 已 有 的 框架 无 法 把 新 的 业务 集成 进来 。 因 此 ,在 设计 
阶段 就 必须 充分 考虑 到 这 一 点 。 例 如 ,部 门 级 的 主题 是 否 有 助 于 形成 企业 级 的 主题 ,数据 加 
载 模块 是 否 能 够 重用 等 等 。 数 据 仓 库 的 长 远 规划 ,并 不 仅仅 是 技术 部 门 的 事情 ,应 当 把 构建 
数据 仓库 作为 企业 发 展 战略 的 一 个 组 成 部 分 。 在 设计 阶段 需要 不 同 部 门 的 沟通 和 协调 , 技 
术 框 架 和 系统 设计 必须 从 整个 企业 的 角度 加 以 考虑 ,即使 刚 开始 实施 时 是 面向 某 个 部 门 的 。 
从 这 一 点 来 看 ,建立 一 个 企业 级 的 数据 仓库 ,主要 的 障碍 不 是 技术 ,而 是 不 同 部 门 之 间 的 组 
织 和 协调 问题 。 

2. 数据 仓库 的 开发 方法 

目前 ,开发 方法 有 多 种 ,如 生命 周期 方法 .快速 原型 法 和 螺旋 法 等 。 虽 然 通常 人 们 在 开 
发 数据 库 系 统 时 多 数 采用 生命 周期 法 或 原型 法 ,但 由 于 数据 仓库 固有 的 特点 ,因此 传统 的 生 
命 周期 法 和 原型 法 并 不 适用 于 数据 仓库 的 开发 。 

螺旋 式 的 开发 方法 采用 “分 而 治之 ”的 思想 ,将 一 个 庞大 的 任务 划分 成 多 个 阶段 。 在 每 
个 阶段 ,项 目 按照 问题 定义 、 系 统 分 析 、 系 统 设计 、 开 发 .实现 ,维护 和 系统 评估 来 进行 。 一 个 
阶段 完成 后 ,再 开始 新 的 阶段 ,而 每 一 阶段 都 是 以 前 一 阶段 的 结果 为 参考 点 ,再 增加 新 的 需 
求 项 目 , 直 到 所 有 的 需求 都 满足 为 止 。 

螺旋 式 开发 方法 具有 以 下 特点 : 

。 每 一 个 区 域 均 含 有 一 系列 适应 待 开发 项 目 特点 的 工作 任务 。 

。 适用 于 需求 不 断 增 长 的 系统 开发 。 

与 传统 的 开发 方法 不 同 ,螺旋 式 开发 不 是 当 软 件 交 付 时 就 结束 了 , 它 能 够 适用 于 系 
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统 开发 和 使 用 的 整个 生命 周期 ,会 一 直 运转 到 软件 退役 。 有 时 这 一 过 程 处 于 休眠 状态 ,但 任 
何 时 候 出 现 了 改变 ,过 程 都 会 从 合适 的 人口 点 开始 继续 运转 。 

一 般 地 ,数据 仓库 的 原始 需求 并 不 明确 , 且 不 断 变化 与 增加 ,开发 者 最 初 并 不 能 确切 了 
解 用 户 明 确 而 详细 的 需求 ,用 户 所 能 提供 的 无 非 是 需求 的 大 方向 以 及 部 分 需求 ,不 能 较 准确 
地 预见 到 以 后 的 需求 。 因 此 ,数据 仓库 比较 适合 采用 螺旋 式 开发 方法 ,但 是 这 又 不 同 于 一 般 
意义 上 的 螺旋 开发 法 ,数据 仓库 是 在 原 有 数据 库 基础 上 构建 的 , 即 从 已 经 存在 于 操作 型 数据 
库 环境 中 的 数据 出 发 构建 数据 仓库 , 即 是 “数据 驱动 ”的 ,因此 ,恰当 的 称谓 是 数据 驱动 的 螺 
旋 式 开发 法 ,该 方法 是 将 数据 驱动 的 思想 与 螺旋 式 开发 方法 结合 起 来 的 一 种 开发 方法 。 基 
于 “数据 驱动 ”的 主要 特点 是 : 
。 利 用 以 前 已 经 建立 的 数据 库 建 设 数据 仓库 。 尽 量 利用 已 有 的 数据 和 代码 ,而 不 是 从 
头 开始 ,这 是 数据 驱动 思想 的 出 发 点 。 
。 基于 数据 驱动 的 方法 不 再 是 面向 应 用 ,而 是 面向 主题 。 数 据 仓库 的 开发 是 从 已 有 的 
数据 库 系 统 出 发 ,按照 分 析 领 域 的 要 求 对 数据 及 数据 之 间 的 关联 重新 考察 ,以 组 织 
数据 仓库 中 的 主题 。 
基于 数据 驱动 的 螺旋 式 开发 方法 是 一 个 不 断 向 外 扩展 的 迭代 过 程 ,其 起 点 较 低 ,每 次 迭 
代 , 螺 旋 线 增加 一 周 ,数据 仓库 的 开发 又 前 进 一 个 层次 ,系统 又 生成 一 个 新 版 本 ,而 软件 开发 
的 时 间 和 成 本 又 有 新 的 投入 。 在 螺旋 式 前 进 的 过 程 中 ,最 后 总 能 得 到 一 个 用 户 满意 的 软件 
版 本 。 所 以 基于 数据 驱动 的 螺旋 式 开发 方法 ,非常 适 于 数据 仓库 面向 主题 ,基于 数据 驱动 的 
开发 特点 。 该 方法 也 是 目前 数据 仓库 常用 的 开发 方法 。 
数据 仓库 的 建立 是 一 个 数据 驱动 .技术 支撑 并 满足 应 用 需求 不 断 增长 的 开发 过 程 。 数 
据 仓 库 的 开发 像 生物 一 样 具有 其 特有 的 、 完 整 的 生命 周期 。 数 据 仓库 的 开发 周期 可 以 分 为 
数据 仓库 的 规划 分 析 阶 段 , 数 据 仓库 的 设计 实施 阶段 以 及 数据 仓库 的 使 用 维护 三 个 阶段 。 
这 三 个 阶段 是 一 个 不 断 循环 、 完 善 和 提高 的 过 程 。 一 般 情况 下 ,数据 仓库 不 可 能 在 一 次 循环 
过 程 中 完成 ,而 是 经 过 多 次 循环 开发 ,每 次 循环 都 会 为 系统 增加 新 的 功能 ,使 数据 仓库 的 应 
用 得 到 新 的 提升 。 

3. 数据 仓库 的 维护 

数据 仓库 建成 后 就 进入 运行 维护 。 一 方面 ,用 户 使 用 数据 仓库 中 的 数据 进行 决策 或 者 
分 析 , 即 在 数据 仓库 中 建立 DSS 应 用 ,同时 ,用 户 将 使 用 情况 和 新 的 需求 反馈 给 开发 人 员 以 
进一步 完善 系统 ,并 管理 数据 仓库 的 一 些 日 常 活动 ,如 刷新 数据 仓库 的 当前 详细 数据 ,将 过 
时 的 数据 转换 为 历史 数据 ,清除 不 再 使 用 的 数据 ,并 调整 数据 粒度 级 别 等 。 

数据 仓库 维护 的 首要 任务 是 数据 备份 与 恢复 。 数 据 仓库 的 数据 是 多 年 积累 的 结果 ,可 
能 包括 10 年 甚至 20 年 的 历史 数据 。 这 些 数据 代表 了 企业 浓缩 而 丰富 的 历史 。 构 建 一 个 成 
功 的 数据 仓库 投入 的 资源 无 疑 是 巨大 的 ,所 以 数据 仓库 的 数据 一 旦 丢失 ,将 给 企业 造成 重大 
损失 。 为 避免 这 种 灾难 的 发 生 , 需 要 对 数据 不 断 备 份 。 

1) 备份 

备份 是 数据 安全 的 保证 。 实 现 备份 需要 考虑 以 下 一 些 因素 : 

”确定 哪些 部 分 需要 备份 。 将 当前 数据 和 历史 数据 分 离 ,当前 数据 源 随 操作 型 系统 的 
输入 而 增长 ,历史 数据 是 过 去 的 内 容 , 应 经 常 性 地 备份 当前 数据 ,历史 数据 没有 必要 
频繁 备份 。 


。 数据 仓库 的 容量 是 一 个 大 问题 。 完 全 备份 数据 仓库 需要 很 长 时 间 , 除 了 完全 备份 ， 
还 可 以 考虑 日 志 备 份 和 差异 备份 。 

。 周期 性 地 归档 数据 。 在 数据 仓库 中 周期 性 地 将 非常 陈旧 的 数据 归档 ,以 减少 备份 和 

恢复 的 时 间 ,提高 检索 的 性 能 。 

。 备份 时 间 。OLTP 系统 备份 一 般 在 晚上 执行 。 但 对 于 数据 仓库 晚上 的 时 间 用 于 每 

日 的 增 量 装载 ,可 以 考虑 备份 和 每 日 装载 同步 进行 。 如 果 可 用 ,将 增 量 装载 文件 作 
为 备份 的 一 部 分 存储 。 

* 备份 介质 的 选择 。 备 份 介质 的 选择 很 重要 ,这 取决 于 数据 仓库 的 容量 。 

2) 恢复 

当 数 据 仓库 发 生 崩 溃 时 ,可 以 利用 备份 文件 恢复 系统 。 一 般 地 ,恢复 过 程 需要 注意 以 下 
问题 : 

。 明确 的 恢复 计划 。 将 不 同 的 灾难 情况 列表 ,指出 每 种 情况 下 如 何 恢复 。 

。 考虑 公司 的 条 件 ,建立 恢复 步骤 ,估计 恢复 的 期 望 停机 时 间 ,正确 .迅速 地 通知 用 户 。 

。 如 果 必 须 在 源 系统 完成 恢复 过 程 ,应 保证 源 系统 可 用 。 

构建 数据 仓库 是 一 个 长 期 工作 ,与 其 他 系统 一 样 需要 在 运行 过 程 中 不 断 调整 和 完善 。 
其 次 是 性 能 的 优化 。 数 据 仓库 涉及 海量 数据 的 查询 ,数据 的 大 量 写 入 / 读 出 ,不 仅 对 系统 要 
求 很 高 ,而且 与 OLTP 的 要 求 极为 不 同 ,因此 在 数据 仓库 设计 、 开 发 .实施 和 维护 的 过 程 中 ， 
数据 仓库 系统 的 性 能 都 是 一 个 不 容 忽 视 的 问题 。 尤 其 是 在 运行 期 间 , 应 密切 关注 应 用 对 系 
统 资 源 的 消耗 情况 ,针对 应 用 的 特点 及 时 进行 系统 的 调整 ,包括 调整 数据 库 参数 .数据 分 片 
设置 .创建 特殊 索引 乃至 提高 系统 配置 等 。 

此 外 ,还 可 以 考虑 模型 的 调整 。 应 用 与 需求 是 相互 促进 、 不 断 发 展 的 , 随 着 系统 建成 并 
运行 ,用 户 在 对 系统 了 解 不 断 加 深 的 过 程 中 ,也 会 对 系统 提出 更 新 、 更 高 的 要 求 。 如 何在 最 
小 投入 的 前 提 下 满足 用 户 的 需求 ,也 是 一 个 值得 注意 和 潜心 研究 的 问题 。 应 尽 可 能 挖掘 现 
有 系统 的 潜力 ,其 次 考虑 对 主题 的 增加 或 可 在 现 有 系统 上 增加 少量 指标 ,对 系统 进行 适当 调 
整 , 最 后 才 考 虑 系统 重 构 , 尽 可 能 减 小 系统 建设 的 投入 。 
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第 3 章 数据 仓库 实例 


3.1 实例 一 


随 着 数据 仓库 技术 的 成 熟 , 国 外 数据 仓库 技术 已 广泛 应 用 于 电信 、 金 融和 保险 等 行业 。 
近年 来 ,中 国 移动 .中 国电 信和 中 国联 通 等 各 大 电信 运营 商 纷纷 制定 出 经 营 信息 服务 系统 技 
术 规 范 和 业务 规范 ,开始 建设 企业 级 数据 仓库 系统 ,引领 国内 数据 仓库 应 用 的 发 展 。 

在 "全 业务 运营 模式 下 如 何 发 挥 综合 优势 ,实现 灵活 多 变 的 市 场 营销 策略 ,为 客户 提供 
更 具有 针对 性 的 服务 ; 同时 最 大 限度 地 合理 配置 和 优化 自身 资源 ,降低 运营 成 本 ,以 增强 企 
业 的 核心 竞争 力 ,成 为 当前 迫切 需要 解决 的 问题 。 其 中 ,市 场 策略 的 应 对 速度 是 保持 竞争 力 
的 重要 手段 ,而 市 场 应 对 策略 的 制定 需要 丰富 、 真 实 和 及 时 的 经 营 信息 提供 支持 。 因 此 , 构 
建 数据 仓库 势 在 必 行 。 下 面 将 详细 介绍 如 何 构建 一 个 简单 的 面向 电信 和 领域 的 数据 仓库 。 


3.1.1 选择 主题 


根据 电信 业务 和 运营 的 需求 ,其 主要 主题 域 如 图 3. 1 所 示 。 
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市 场 营销 关心 地 域 


3.1 电信 和 领域 数据 仓库 的 主要 主题 域 


其 中 : 

。 参与 人 是 指 与 电信 运营 商 的 业务 或 管理 活动 存在 联系 的 任何 个 人 或 组 织 机 构 ,是 一 
切 电信 活动 的 主体 ,包含 电信 企业 的 客户 、 联 系 人 等 所 有 消费 电信 产品 的 信息 。 参 
与 人 角色 则 描述 了 参与 人 在 消费 过 程 中 扮演 的 角色 。 


。 产品 主题 域 主要 包括 产品 和 商品 两 个 概念 。 产 品 是 指 电信 运营 商 利 用 自身 的 资源 
或 者 第 三 方 资源 ,为 客户 提供 具有 市 场 价值 的 基本 元 素 ; 商品 是 指 电信 运营 商 利 用 
营销 手段 针对 不 同 的 营销 渠道 客户 细 分 .地 域 细 分 和 销售 目标 等 ,对 产品 规格 LUE 
费 计划 进行 必要 的 组 合 包装 的 产物 。 产 品 是 电信 企业 提供 的 基本 服务 单元 ,如 固定 
电话 、 小 灵通 、 专 线 等 ; 商品 是 指 给 产品 制定 了 资费 以 后 的 服务 。 参 与 人 直接 购买 
使 用 商品 。 

。 账 务 主题 域 是 指 参 与 人 使 用 商品 过 程 中 所 产生 的 费用 账目 等 ,这 些 账目 的 资费 是 
根据 商品 的 资费 进行 计算 的 。 

。 市 场 营销 主题 域 主要 包括 市 场 战 役 和 渠道 。 市 场 战 役 主要 描述 企业 在 市 场 营销 活 
动 中 的 策略 和 效果 ; 渠道 是 企业 利用 营销 的 管理 手段 管理 企业 客户 的 方法 。 

。 事件 主题 域 给 用 户 提 供 了 一 个 客户 生命 周期 的 完整 视图 ,记录 了 客户 与 电信 运营 商 
关系 的 不 同 阶段 。 

。 地 域 主题 域 是 指 在 地 理 上 能 被 确定 的 一 块 地方 , 是 一 个 面 的 概念 ,可 以 是 行政 区 域 
也 可 以 是 电信 的 管理 区 域 。 

通常 地 ,根据 需求 选择 用 户 最 关心 的 主题 域 , 同 时 还 要 兼顾 业务 系统 的 数据 提供 

能 力 。 


3.1.2 逻辑 模型 


本 例 中 ,逻辑 模型 的 设计 主要 包括 以 下 几 个 方面 。 

1. 选择 数据 源 

构建 面向 电信 和 领域 的 数据 仓库 ,数据 源 主要 是 来 自 于 各 类 业务 以 及 营业 、 账 务 和 计 费 等 
生产 系统 的 数据 ,如 客户 资料 .通话 详 单 和 出 账 数据 等 。 

表 3.1 一 表 3. 3 分 别 给 出 了 移动 业务 的 客户 资料 表 、 出 账 表 和 通话 详 单 表 的 常用 
字段 。 
表 3.1 客户 资料 表 的 常用 字段 R32 客户 出 账 表 的 常用 字段 。 X33 通话 详 单 表 的 常用 字段 


客户 标识 客户 标识 呼叫 类 型 
手机 号 码 基本 月 租 费 IMSI 号 
客户 类 别 增值 服务 费 主 叫 号 码 
客户 姓名 本 地 通话 费 被 叫 号 码 
证 件 类 型 长 途 通话 费 通话 开始 时 间 
客户 证 件 号 码 国内 漫游 通话 费 通话 时 长 
归属 地 国际 漫游 通话 费 通话 位 置 
付费 方式 短信 费 漫游 类 型 


人 网 日 期 总 费用 
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2. 确定 数据 粒度 

数据 仓库 设计 最 重要 的 步骤 之 一 是 确定 数据 粒度 。 

1) 选择 数据 粒度 

由 于 电信 业务 系统 中 的 数据 量 很 大 ,例如 某 省 一 天 的 GSM 业务 详 单数 据 量 就 达 
1. 2GB 左右 ,客户 账单 的 数据 量 每 个 月 也 有 2000 万 条 ,同时 对 详 单数 据 保留 周期 要 求 在 
线 保存 3 个 月 ,其 他 如 客户 资料 、 账 单 和 欠 费 等 详细 数据 的 保留 周期 更 长 ,因此 数据 仓库 
系统 应 采用 多 重 粒 度 , 使 数据 在 当前 细节 级 和 各 个 汇总 级 都 存在 ,以 满足 用 户 的 不 同 查 

对 于 客户 资料 ,由 于 属于 增长 较为 缓慢 的 信息 ( 随 着 客户 数量 的 增长 ,客户 业务 信息 的 
变更 表 会 增长 ) ,可 以 使 用 单一 的 数据 粒度 。 如 果 客 户 数量 很 大 ,每 个 月 生成 一 张 客户 资料 
表 将 浪费 大 量 的 空间 ,因为 只 有 客户 资料 变化 或 者 新 增 客户 , 才 需 要 修改 原先 的 客户 资料 
表 , 采 用 增加 一 个 “当前 标志 ”字段 ,标识 客户 的 当前 信息 ,并 选择 “数据 变更 日 期 "作为 时 间 
字段 ,如 图 3.2 所 示 。 

对 于 客户 出 账 信 息 ,每 月 每 个 客户 标识 只 在 账 务 信 息 中 对 应 一 条 记录 ,本 身 就 带 有 一 定 
的 综合 性 ,可 以 采用 单一 的 数据 粒度 ,如 图 3.3 所 示 。 


客户 资料 表 客户 资料 表 

客户 标识 户 标识 — 客户 出 账 表 

Ele SEERE 客户 出 账 表 客户 出 账 表 

Men E Ht Ht 

客户 姓名 "标识 客户 标识 客户 标识 

证 件 类 型 | C———» | 手机 号 码 XA] RUE FAM 

客户 证 件 号 码 客户 类 别 增值 服务 费 增值 服务 费 

归属 地 客户 姓名 本 地 通话 费 本 地 通话 费 

付费 方式 证 件 类 型 长 途 通话 费 长 途 通 话费 

入 网 日 期 客户 证 件 号 码 国内 漫游 通话 费 国内 漫游 通话 费 
归属 局 国际 温 游 通话 费 国际 漫游 通话 费 
付费 方式 短信 费 短信 费 


入 网 日 期 总 费用 总 费用 


图 3.2 使 用 单一 粒度 的 客户 资料 图 3.3 使 用 单一 粒度 的 客户 出 账 数据 


通话 详 单数 据 量 最 大 ,对 于 一 个 客户 的 一 次 通话 (无 论 是 主 叫 或 被 叫 ,因为 一 次 通话 实 
际 上 将 生成 主 叫 、 被 叫 两 条 记录 ) ,通话 详 单 中 将 出 现 一 条 通话 记录 ,因此 对 于 一 个 大 型 的 电 
信 公 司 ,其 通话 详 单数 据 量 非常 大 ,所 以 采用 双重 粒度 。 

对 于 近 3 一 4 个 月 的 通话 详 单数 据 ,保留 在 数据 仓库 中 ,并 定期 聚合 成 按 月 综合 ,然后 将 
细节 数据 导出 另行 保存 为 新 的 细节 数据 腾 出 空间 ,如 图 3.4 所 示 。 

2) 选择 粒度 级 别 和 汇总 方式 

对 粒度 级 别 的 选择 主要 取决 于 用 户 的 分 析 需 求 和 各 个 表 中 数据 量 的 大 小 。 其 中 用 户 需 
求 主要 来 自在 需求 分 析 阶 段 得 到 的 各 种 用 户 报表 和 对 分 析 需 求 的 描述 资料 。 针 对 不 同 数 据 
层次 选择 粒度 级 别 如 下 : 

(1) 当前 细节 级 

保存 业务 系统 的 最 详细 数据 ,不 进行 数据 汇总 。 


按 月 综合 的 数据 


呼叫 类 型 
IMSI 号 
主 叫 号 码 
被 叫 号 码 
通话 开始 时 间 
呼叫 类 型 一 -一 一 通话 位 置 
MSIS 漫游 类 型 
主 叫 号 码 
被 叫 号 码 
通话 开始 时 间 
通话 位 置 m 
漫游 类 型 E $ MSI: 
主 叫 号 码 
被 叫 号 码 
通话 开始 时 间 
ra — ; 通话 位 置 
FA fr Rc 漫游 
esL eeeA 3 个 月 之 前 的 iin: 
细节 数据 最 近 3 个 月 的 
细节 数据 


3.4 使 用 双重 粒度 的 通话 详 单数 据 


(2) 轻 度 综 合 级 

按照 日 和 月 份 汇总 数据 ,其 中 , 话 单数 据 是 按照 日 和 月 份 汇总 一 个 用 户 的 话 务 数据 , 同 
时 保存 各 种 话 务 类 型 维度 ,由 于 按照 这 种 汇总 方式 汇总 后 的 数据 量 仍 然 很 大 ,同时 有 对 用 户 
的 月 通话 时 长 进行 分 类 的 要 求 。 因 此 ,增加 每 日 和 每 月 每 个 用 户 的 通话 总 次 数 和 总 时 长 的 
汇总 表 ; 账单 数据 是 汇总 一 个 用 户 一 个 月 的 费用 ,去 掉 细节 表 中 的 最 小 费 项 ,改变 账单 数据 
模式 ,将 用 户 标识 和 账 期 作为 主键 ,把 主要 费 项 作为 字段 加 以 保存 ; 欠 费 数据 是 按照 日 和 月 
份 对 用 户 欠 费 进行 一 次 快照 ,同时 汇总 每 个 用 户 的 欠 费 数据 ; 销 账 数据 是 按照 日 和 月 份 汇 
总 用 户 的 销 账 数 据 。 

(3) 高 度 综合 级 

高 度 综合 数据 一 部 分 是 对 轻 度 综合 数据 按照 时 间 汇 总 到 年 ,同时 由 于 需 满 足 用 户 的 分 
析 需 求 , 带 有 用 户 标识 的 汇总 数据 量 还 是 很 大 ,因此 在 高 度 综合 级 增加 一 个 不 包括 用 户 标 识 
的 汇总 数据 以 再 次 减少 数据 量 ,提高 查询 分 析 的 效率 。 这 部 分 数据 模型 通过 对 用 户 已 有 报 
表 的 指标 分 析 和 用 户 提 出 的 分 析 需 求 确定 。 

3. 设计 数据 模型 

一 般 地 ,ODS 存放 数据 仓库 的 当前 细节 级 数据 ,采用 满足 第 三 范式 的 数据 模型 。 因 为 
ODS 的 一 部 分 数据 如 用 户 数据 、 客 户 数据 等 都 需要 从 接口 中 提取 变化 的 数据 对 表 进 行 更 
新 ,因此 使 用 满足 第 三 范式 的 数据 模型 ,可 减少 数据 元 余 , 便 于 数据 更 新 。 同 时 还 减少 了 在 
向 ODS 抽取 数据 时 进行 关联 操作 的 次 数 。 另 外 ,由 于 ODS 是 轻 度 综合 级 数据 的 数据 源 , 因 
此 为 了 保证 轻 度 综合 级 数据 抽取 的 效率 和 准确 ,可 在 ODS 中 适当 引入 宛 余 字段 。 

在 客户 主题 域 的 轻 度 综合 级 中 对 每 个 客户 的 数据 进行 汇总 ,其 数据 量 很 大 ,例如 某 省 
GSM 业务 的 客户 数 大 约 是 300 万 ,如 果 采 用 星 型 模式 ,由 于 很 多 维度 中 成 员 数 量 很 少 ,同时 
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轻 度 综合 级 的 数据 又 不 断 增 加 。 如 果 完 全 采用 星 型 模式 将 造成 数据 大 量 元 余 , 增 加 系统 存 
储 压力 ,因此 ,对 轻 度 综合 级 数据 采用 星 型 和 雪花 型 模式 的 综合 ,将 用 户 查 询 中 经 常用 到 的 
维度 直接 放 到 事实 表 , 其 他 维度 和 相应 的 维 表 关联 ,这 样 即 可 以 提高 一 定 的 查询 效率 ,同时 
又 不 会 造成 过 多 的 数据 元 余 。 用 户 查 询 时 ,使 用 最 多 的 是 业务 类 型 .用 户 所 属地 域 和 套餐 信 
息 等 ,以 及 付费 方式 和 用 户 账 务 类 型 等 派生 字段 ,因此 在 各 个 轻 度 综合 的 事实 表 中 加 入 业务 
类 型 .用户 所 属地 域 套餐 以 及 付费 方式 和 用 户 账 务 类 型 ,相应 的 维 表 直接 和 事实 表 关 联 ,其 


他 维 表 需 要 和 用 户 维 表 关 联 。 轻 度 综合 级 的 数据 模式 如 图 3. 5 所 示 。 
GSM 用 户 基本 业务 日 使 用 
mim GSP 
网 类 型 1 标识 [sg 
DEMAN 用 户 标识 用 户 标识 
业务 类 型 维 主键 | oo< 入 网 时 长 用 户 号 码 
- 基本 业务 类 型 业务 类 型 
业务 标识 号 FL, pure DIESES 
中 继 类 型 用 户 所 属地 域 用 户 类 型 编码 
主 被 叫 类 型 入 网 时 长 用 户 类 型 维 主键 
对 方 业务 类 型 入 网 渠道 
通话 区 域 统计 时 间 
漫游 类 型 VERRE 
通话 次 数 
通话 时 长 
本 地 计 费 时 长 E — x 
长 途 计 费 时 长 AMEN 
漫游 计 费 时 长 一 0] 省 编码 
本 地 通话 费 地 市 编码 
长 途 通 话费 地 域 维 编码 
长 途 漫游 费 
账 务 类 型 维 表 话费 优惠 
cH 村 费 方式 维 表 
账 务 类 型 编码 pides 付费 方式 维 表 
账 务 类 型 细 分 编码 记录 标志 付费 方式 编码 
用 户 账 务 类 型 维 编码 用 户 账 务 类 型 nm 预付 费 类 型 编码 
付费 方式 付费 方式 维 编码 
用 户 所 属地 域 


图 3.5 轻 度 综合 级 的 数据 模型 一 一 星 型 -雪花 型 
对 于 高 度 综合 级 的 数据 ,一 部 分 是 对 单一 用 户 一 年 数据 的 汇总 ,因此 也 可 采用 星 型 和 雪 


花 型 组 合 的 模式 。 同 时 ,在 高 度 综合 级 还 有 一 部 分 是 不 包括 用 户 标识 的 汇总 数据 ,数据 量 相 
对 较 少 ,因此 可 采用 星 型 模式 以 提高 数据 查询 


地 市 编码 
效率 。 地 市 编码 
设计 维 表 时 ,应 遵循 以 下 的 设计 原则 , 即 ， 地 市 名 称 
CD 在 维 表 中 保存 该 维度 的 全 部 层次 信息 ， I 
同时 引入 代码 表 , 对 同一 含义 的 字段 进行 统一 
编码 ,保证 不 同 维 表 中 相同 含义 的 字段 具有 统 A 
一 编码 。 维 表 和 代码 表 的 关系 如 图 3.6 所 示 。 Ee iss] 省 分 公司 编码 
(2) 维 表 只 对 最 低层 次 编码 ,如 果 两 个 事实 | incon ganna 
表 对 同一 维度 汇总 到 不 同 的 层次 , 则 对 于 该 维 R zi cua 
度 ,不 同 的 事实 表 对 应 不 同 的 维 表 。 例 如 ,对 于 图 3.6 ， 维 表 和 代码 表 的 关系 


通话 区 域 维 , 其 层次 分 别 为 省、 地 市 ,交换 区 、 区 县 和 基站 ”, 通 话 情况 的 事实 表 有 两 个 ,其 中 
一 个 在 通话 区 域 维 的 粒度 是 基站 ,而 另 一 个 在 通话 区 域 维 的 粒度 是 地 市 , 则 这 两 个 事实 表 分 
别 对 应 两 个 不 同 的 通话 区 域 维 表 ,如 图 3.7 所 示 。 


基站 维 表 地 市 
基站 维 表 代 码 省 代码 
省 代码 地 市 代码 
地 市 代码 地 市 主键 
交互 区 编码 
区 县 编码 
基站 代码 

移动 业务 使 用 汇总 移动 业务 使 用 汇总 
统计 时 间 统计 时 间 

地 市 代码 地 市 代码 
受理 点 类 型 受理 点 类 型 

基站 代码 通话 地 市 

付费 方式 代码 付费 方式 代码 
呼叫 类 型 代码 呼叫 类 型 代码 

话 务 类 型 代码 话 务 类 型 代码 

用 户 账 务 类 型 代码 用 户 账 务 类 型 代码 
用 户 资费 类 型 用 户 资费 类 型 
移动 套餐 类 型 代码 移动 套餐 类 型 代码 
移动 业务 类 型 代码 移动 业务 类 型 代码 
时 段 代码 时 段 代 码 
中 继 类 型 代码 中 继 类 型 代码 
用 户 类 型 代码 用 户 类 型 代码 
用 户 级 别 编码 用 户 级 别 编码 
对 方 业务 类 型 代码 对 方 业务 类 型 代码 
入 网 时 长 分 档 入 网 时 长 分 档 
对 方 付费 方式 对 方 付费 方式 
用 户 数 用 户 数 
通话 次 数 通话 次 数 
通话 费 通话 费 
计 费 时 长 计 费 时 长 
通话 时 长 通话 时 长 


3.7 通话 区 域 维 的 不 同 汇总 级 别 


采用 上 述 方式 可 以 避免 在 同一 维 表 中 保存 不 同 层 次 的 代码 ,使 维 表 结 构 清 晰 ,同时 减少 
单一 维 表 的 数据 量 。 另 外 由 于 代码 表 的 存在 ,使 得 不 同 粒度 维 表 中 同一 层次 的 代码 统一 。 

(3) 除了 用 户 维 表 、 客 户 维 表 等 业务 实体 对 应 的 维 表 之 外 , 维 表 的 层次 字段 使 用 统一 的 
命名 方式 ,分 别 为 LnCODE, 其 中 标识 是 第 n 层 编码 。 采 用 统一 的 命名 方式 便于 对 维 表 
的 统一 维护 。 大 部 分 的 维 表 变化 是 指 增加 相应 的 维度 取 值 ,对 此 类 数据 的 变化 主要 是 在 代 
码 表 和 维 表 中 增加 相应 的 代码 ,不 会 对 历史 数据 产生 影响 。 

4. 分 割 数据 

数据 分 割 是 指 首先 根据 业务 系统 的 不 同 对 表 进 行 分 割 , 例 如 按照 GSM、 增 值 . 数 据 和 
VoIP 等 不 同 的 业务 系统 分 割 数据 ,这 主要 是 基于 各 个 不 同 的 数据 级 别 上 都 有 业务 维 ,同时 
不 同业 务 除 了 一 部 分 共性 的 数据 外 还 包括 属于 该 业务 系统 特殊 的 信息 ,因此 按照 不 同业 务 
分 割 数据 一 方面 可 以 减少 单 表 的 数据 量 , 同 时 可 以 保证 数据 仓库 中 各 个 业务 信息 的 完整 性 。 
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按照 业务 分 割 数据 后 ,由 于 话 单 和 出 账 数据 的 单个 业务 的 数据 量 还 是 很 大 ,因此 将 话 单 
和 出 账 数据 按照 用 户 所 属地 域 再 次 进行 分 割 。 选 择 用 户 所 属地 域 是 因为 各 个 汇总 级 别 上 都 
包括 用 户 所 属地 域 维度 ,按照 用 户 所 属地 域 分 割 不 会 对 数据 抽取 产生 影响 。 

5. 划分 表 

对 用 户 表 按照 其 数据 变化 频率 进行 划分 ,大 致 可 分 为 : 

。 比较 稳定 的 字段 

如 用 户 标识 、 用 户 号 码 、 用 户 所 属地 域 、 入 网 时 间 、 离 网 时 间 、 用 户 类 型 和 信用 额度 等 。 

。 经 常 变化 的 字段 

如 用 户 套餐 .用户 状态 和 停 开 机 时 间 等 。 

由 于 用 户 套餐 在 用 户 查 询 中 经 常 使 用 ,同时 由 于 是 每 天 对 业务 系统 的 用 户 表 进 行 抽取 ， 
因此 对 话 务 信息 而 言 有 可 能 丢失 用 户 当 时 通话 时 的 套餐 信息 ,因此 将 用 户 套餐 作为 元 余 字 
段 放 在 各 个 汇总 的 事实 表 中 。 最 终 将 用 户 信息 划分 成 如 下 两 张 表 。 

* 用 户 基 本 信息 表 包 括 用 户 标 识 、 用 户 号 码 、 所 属地 域 、 入 网 时 间 、 离 网 时 间 、 用 户 类 

型 ,信用 额度 和 用 户 套 餐 等 字段 。 

。 用 户 在 网 状态 表 包 括 用 户 标 识 、 用 户 套 餐 、 用 户 状 态 和 停 开 机 时 间 等 字段 。 

6. 设计 多 维 模型 

针对 每 个 主题 域 确定 其 所 需 的 维度 和 度量 ,然后 定义 每 个 主题 域 的 关系 模式 ,从 而 形成 
一 个 星 型 模式 ,在 此 基础 上 可 以 生成 多 维 数据 表 ,建立 多 维 模型 。 

以 客户 主题 域 为 例 , 其 维度 的 设计 如 图 3. 8 所 示 。 


模型 名 称 : 客户 资料 

模块 功能 : 用 于 客户 数量 的 分 析 以 及 客户 属性 的 分 析 

事实 表 : 客户 资料 事实 表 

度量 : 客户 数量 

数据 粒度 ; 
每 个 客户 每 月 计算 一 次 收益 ,事实 表 中 每 条 记录 表示 一 个 客户 的 属性 。 
事实 表 中 存放 1 年 以 内 的 数据 ,超过 10 年 的 数据 按 月 进行 滚动 ,最 初 的 数据 汇总 后 从 事实 表 中 导出 。 

相关 维度 : 

COD 客户 详细 资料 维 

(2) 客户 性 别 维 

(3) 客户 年 龄 层次 维 

(4) 客户 在 网 时 间 维 

(5) 客户 消费 层次 维 

(6) 客户 信用 度 层次 维 

(7) 是 否 大 客户 维 

(8) 付费 类 型 维 

(9) 地 域 维 

(10) 客户 流失 概率 层次 维 

(11) 客户 挽留 价值 层次 维 

(12) 成 为 大 客户 概率 层次 维 

(13) 客户 价值 层次 维 

(14) 客户 服务 状态 维 

(15) 客户 号 码 维 
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相应 的 星 型 模式 如 图 3. 9 所 示 。 


客户 信息 事实 表 
客户 详细 资料 维 
Cust_ID 上 -一 Cust ID 
Sex_ID 一 一 一 一 客户 性 别 维 
年 龄 层次 维 
Sex_ID 
AgeLevel_ID t AgeLevel_ID 
BeVIP_ID — 是 否 大 客户 维 
付费 类 型 维 
BeVIP_ID 
PayType ID. -一 一 一 PayType ID 
CustServState ID 一 一 一 一 客户 服务 状态 维 
客户 在 网 时 间 维 
CustServState ID 
InServTimeLevel ID | — —— | InServTimeLevel ID 
Geo ID 一 一 一 地 域 维 
客户 信用 度 层次 维 
Geo ID 
CreditLevel ID t CreditLevel ID 一 
m PayLevel ID = 一 一 一 消费 层次 维 
客户 流失 概率 层次 维 
PayLevel ID. 
ChurnLevel ID | 一 一 一 一 | ChurnLevel ID 
- - DetainValueLevel ID = 一 一 客户 挽留 价值 层次 维 
成 为 大 客户 概率 层次 维 一 a 
| DetainValueLevel ID 
BeVIPLevel ID | BeVIPLevel ID 
CustValueLevel ID. 一 一 一 一 客户 价值 层次 维 
客户 号 码 维 eo —À 
CustValueLevel ID 
CustNumber ID CustNumber 


3.9 客户 基本 信息 的 星 型 模式 


在 关系 数据 库 中 实现 多 维 模型 即将 多 维 模型 中 的 度量 、 维 度 、 事 实 和 层次 等 概念 用 关系 
模型 中 的 元 素 实现 ,其 实现 方式 可 以 概括 为 : 在 关系 模型 中 维 转换 成 维 表 , 事 实 转换 成 事实 
表 , 度 量 转换 成 事实 表 中 的 一 个 字段 。 维 表 和 事实 表 的 关联 是 通过 将 维 表 的 主键 作为 事实 
表 的 外 键 实现 。 

在 使 用 维 表 实现 维 时 ,需要 对 维 的 层次 进行 表示 ,具体 如 下 ， 

CD 通过 维 表 的 不 同 字段 

通过 维 表 的 不 同 列表 示 维 的 不 同 层次 。 例 如 ,地 域 维 中 
的 层次 为 省 .地 市 和 区 县 ,如 图 3. 10 所 示 。 i 


(2) 通过 表 之 间 的 关联 ER 
使 用 不 同 的 表 分 别 表示 维 的 不 同 层次 不同 表 之 间 通 过 AETEHEEGB IO 


os Key I «pk» 


外 键 关 联 形成 维 的 层次 。 例 如 上 述 地 域 维 的 层次 可 以 通过 表 
之 间 的 关联 表示 ,如 图 3. 11 所 示 。 


图 3.10 字段 表示 维 的 层次 
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省 地 市 区 县 
省 编码 地 市 编码 区 县 编码 
省 名 称 地 市 描述 JKR 
省 维 表 主键 (pk) |” “省 (fk) 地 市 (fk) 
Pe Key 1 0 地 市 主键 (pk) 区 县 主键 (pk) 
= om Key 1 (pk) om Key 1 (pk) 
3.11 表 之 间 的 关联 表示 维 的 层次 
(3) 通过 关联 字段 


在 维 表 中 加 入 两 个 字段 ,一 个 标识 维 中 的 成 员 , 另 一 个 标识 该 成 员 的 逻辑 父 代 的 成 员 , 例 
如 上 述 地 域 维 的 层次 可 以 通过 关联 字段 来 表示 ,如 图 3.12 所 示 。 AE 
上 述 各 种 维 层次 的 表示 方法 中 ,通过 字段 表示 的 方法 最 为 KRE 


简单 ,而 且 由 于 查询 时 是 对 单 表 的 查询 ,因此 查询 效率 较 高 。 c AN 
通过 不 同 的 表 来 表示 维 的 层次 可 以 提取 出 许多 共用 的 维 表 , 提 | -| RARR O 
高 维 表 的 可 维护 性 ,但 是 由 于 查询 时 需要 进行 多 次 的 关联 , 因 > Key (k) 
此 查询 效率 较 低 。 以 上 两 种 方法 对 于 不 均衡 和 不 整齐 的 维 而 els 关联 字段 表 示 维 
言 ,都 存在 数据 宛 余 ,需要 通过 引入 人 工 处 理 将 维度 补 齐 , 如 果 的 层次 


维 的 层次 较 多 ,最 终 实现 起 来 数据 元 余 会 很 大 。 而 采用 关联 字 

段 的 方法 ,可 以 很 好 地 表示 不 均衡 和 不 整齐 的 维度 ,但 是 由 于 在 查询 时 需要 对 表 进 行 多 次 的 
自 关联 操作 ,因此 查询 效率 较 低 ,而 且 采 用 关联 字段 的 维 表 也 不 易 被 用 户 理解 。 星 型 和 雪花 
型 模式 中 都 可 以 使 用 关联 字段 实现 维 表 。 


3.1.3 物理 模型 


本 例 中 ,物理 模型 的 设计 主要 包括 以 下 几 个 方面 。 

1. 数据 文件 的 存储 分 配 

由 于 数据 仓库 中 ODS、 轻 度 综合 级 、 高 度 综 合 级 以 及 维 表 的 数据 量 和 数据 增长 方式 的 
不 同 , 故 将 其 分 成 多 个 数据 文件 进行 存储 ,又 因为 话 单 的 数据 量 很 大 同时 数据 增长 也 很 快 ， 
因此 在 ODS、 轻 度 综合 级 和 高 度 综合 级 对 应 的 数据 文件 中 都 指定 几 个 文件 作为 话 单数 据 专 
用 的 数据 文件 。 

2. 表 的 索引 

当前 细节 级 中 的 用 户 表 、 欠 费 表 加 入 主键 索引 可 以 提高 数据 更 新 速度 。 对 其 他 的 表 , 可 
以 根据 用 户 经 常 查询 的 方式 以 及 字段 本 身 的 特性 加 入 适当 的 索引 。 

3. 表 的 物理 分 割 

对 话 务 和 出 账 数 据 按照 时 间 进 行 物理 分 割 , 使 得 对 一 天 或 者 一 个 月 数据 的 查询 不 受 数 
据 逐 渐 增 加 的 影响 。 物 理 分 割 依赖 于 DBMS 系统 的 功能 ,例如 使 用 Oracle 提供 的 分 区 功能 
对 数据 进行 物理 分 割 。 

4. 禁止 外 键 关联 

将 数据 模型 中 的 外 键 约 束 禁 止 变 为 人 工 约束 ,将 外 键 禁止 是 为 了 保证 数据 抽取 的 效率 ， 
不 删除 外 键 是 为 了 提供 数据 之 间 的 关联 关系 。 


3.1.4 ETL 


本 例 中 ,ETL 设计 主要 包括 以 下 几 个 方面 。 
1. 抽取 数据 到 临时 数据 区 
数据 仓库 的 数据 源 不 是 来 自 终端 客户 每 天 输入 的 数据 ,而 主要 来 自 企 业 的 OLTP 系统 


的 数据 。 


对 于 一 个 简单 的 面向 电信 和 领域 的 数据 仓库 ,在 将 OLTP 系统 的 数据 加 载 到 数据 仓库 之 
前 , 需 先 将 其 抽取 到 一 个 临时 数据 区 ,并 在 临时 数据 区 进行 数据 清理 和 校 验 工 作 , 待 全 部 数 
据 正 确 无 误 后 ,再 加 载 到 数据 仓库 ,以 保证 数据 质量 。 这 是 使 用 临时 数据 区 的 一 个 好 处 。 

临时 数据 区 事实 上 就 是 一 个 数据 库 ,此 数据 库 作 为 数据 仓库 的 数据 源 ,数据 仓库 直接 从 
临时 数据 区 加 载 数 据 , 从 而 避 开 OLTP 系统 ,这 样 避免 了 OLTP 系统 和 数据 仓库 系统 之 间 
处 理 上 的 冲突 ,避免 了 OLTP 系统 因数 据 抽取 而 影响 其 响应 时 间 。 这 是 使 用 临时 数据 区 的 


另 一 个 好 处 。 


临时 数据 区 暂 存 将 要 加 载 到 数据 仓库 的 事实 数据 和 维度 数据 , 它 利用 关系 表 映 射 数 据 
仓库 的 星 型 和 雪花 型 模式 。 如 果 数 据 仓库 建立 在 SQL Server 2000 数据 库 基 础 上 , 则 从 
OLTP 系统 抽取 数据 时 ,必然 会 用 到 存储 过 程 和 脚本 文件 。 

下 面 以 时 间 维 数据 、 客 户 维 数据 和 收益 事实 表 数 据 的 抽取 为 例 加 以 说 明 。 

在 SQL Server 2000 中 建立 新 数据 库 , 命 名 为 临时 数据 区 ,分 别 建立 客户 维 表 、 五 一 维 
表 , 十 一 维 表 和 收益 事实 表 , 分 别 如 表 3.4 一 表 3.7 所 示 。 


表 3.4 客户 维 表 
字 段 名 数据 类 型 长 度 说 明 
客户 序号 Int 4 关键 字 , 自 增 
客户 号 Char 4 外 部 关键 字 
客户 姓名 Char 10 非 空 
客户 性 别 Char 2 非 空 
表 3.5 五 一 维 表 
字 段 名 数据 类 型 长 度 说 明 
五 一 序号 Int 4 关键 字 , 自 增 
年 Int 4 非 空 
日 Int 4 非 空 
日 期 时 间 Datetime 8 非 空 
表 3.6 十 一 维 表 
字 段 名 数据 类 型 长 度 说 明 
十 一 序号 Int 4 关键 字 , 自 增 
年 Int 4 非 空 
日 Int 4 非 空 
日 期 时 间 Datetime 8 非 空 
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表 3.7 收益 事实 表 


字 段 名 数据 类 型 长 BH 说 明 
事实 序号 Int 4 关键 字 , 自 增 
客户 序号 Int 4 外 部 关键 字 
消费 金额 Money 8 非 空 
日 期 时 间 Datetime 8 非 空 

实现 数据 抽取 的 存储 过 程 如 下 : 
Create Procedure 客户 主题 抽取 as  // 从 客户 表 中 抽取 客户 维 数据 


Select OLTP. .客户 表 . 客户 号 ,OLTP. .客户 表 . 客户 姓名 ， 


Case OLTP. .客户 表 . 性 别 
When'0'Then ' 男 ' 
When'1'Then ' 女 ' 
When'n'Then ' 男 ' 
When'f'Then ' 女 ' 

Else OLTP. .客户 表 . 性 

End, 


别 


Into 客户 维度 表 From OLTP. .客户 表 
// 从 收益 表 中 提取 五 一 维 数据 
Select Datepart(yyyy, OLTP. . 收益 表 . 收益 日 期 时 间 )， 


Datepart(dd, OLTP. . 收益 表 . 收益 日 期 时 间 )， 


OLTP. .收益 表 . 收益 日 期 时 间 


Into 五 一 维 表 From OLTP. . 


收益 表 


Where Datepart(mm, OLTP. .收益 表 . 收益 日 期 时 间 ) = 5 And 


Datepart(dd, OLTP. .收益 表 . 收益 日 期 时 间 )> = 1 And 


Datepart(dd, OLTP. .收益 表 . 收益 日 期 时 间 )<=7 
// 从 收益 表 中 提取 十 一 维 数据 
Select Datepart(yyyy, OLTP. . 收益 表 . 收益 日 期 时 间 )， 


Datepart(dd, OLTP. . 收益 表 . 收益 日 期 时 间 )， 


OLTP. .收益 表 . 收益 日 期 时 间 


Into 十 一 维 表 From OLTP. . 


收益 表 


Where Datepart(mm, OLTP. . 收益 表 . 收益 日 期 时 间 ) = 10 And 
Datepart(dd, OLTP. .收益 表 . 收益 日 期 时 间 )> = 1 And 
Datepart(dd, OLTP. . 收益 表 . 收益 日 期 时 间 )<= 7 

// 从 收益 表 中 提取 事实 数据 


Select 


临时 数据 区 . .客户 维度 表 . 客户 序号 ,OLTP. .收益 表 . 消费 金额 ， 


OLTP. .收益 表 . 收益 时 间 日 期 


Into 客户 收益 事实 表 From 临时 数据 区 . .客户 维度 表 ，OLTP. . 收益 表 
Where 临时 数据 区 . .客户 维度 表 . 员 工 号 = OLTP. .收益 表 . 客户 号 


在 转换 过 程 中 ,假设 OLTP 系统 可 能 的 性 别 集合 为 {{ 男 , 女 },{10,1},{m,f)}, 则 可 以 建 


立 如 下 脚本 : 


j————————————————Á 


// Visual Basic 转换 脚本 


VpET——————— 
Function Main() 

If (DTSSource(" sex") == "0") 
DTSDestination(" 性 别 ") = "5" 
Else if (DTSSource("sex") == "1") 
DTSDestination(" 性 别 ") = " 女 " 

If (DTSSource(" sex") == "n") 
DTSDestination(" 性 别 ") = " 男 " 
Else if (DTSSource("sex") -- "£") 
DTSDestination(" 性 别 ") = "4c" 

Main = DTSTransformStat_OK 
End Function 


例如 , 源 数据 库 的 客户 表 和 数据 仓库 的 客户 维 表 的 结构 如 表 3. 8 所 示 。 
表 3.8 源 数据 库 的 客户 表 和 数据 仓库 的 客户 维 表 的 结构 


源 数据 库 的 客户 表 数据 仓库 的 客户 维 表 
客户 识别 码 Char 客户 当前 标志 Int( 标 识 ) 
客户 消费 能 力 SmallMoney( 年 收入 ) 客户 识别 码 Char 
Insert_dtm Smalldatetime 客户 消费 能 力 Varchar( 收 入 层次 ) 
Update_dtm Smalldatetime 


通过 两 者 的 比较 发 现 客户 消费 能 力 的 数据 类 型 不 一 样 。 前 者 存储 的 是 具体 的 收入 值 ， 
后 者 是 收入 的 层次 ,可 编写 如 下 的 VBScript 脚本 完成 这 一 转换 工作 。 


// 关 尖 尖 关 关 关 闪闪 关 关 闪光 关 尖 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 关 
//Visual Basic 转换 脚本 
f [| XO CROCO FE AE IE IE E PE IE IE E FE IE FE E FE JE IE FE ME JE JE FE DE IE COO E FE IE IE IE E IE FE IE FE JE ME E RE FE FEE GE 
// 将 客户 表 的 yearly_income 的 SmallMoney 型 转换 成 客户 维 表 的 Varchar 型 
Function Main() 
Select Case DTSSource("yearly income") 
Case Is « - 10000 
DTSDestination("yearly income") =" $ 10k- " 
Case 10001 to 30000 
DTSDestination("yearly income") =" $ 10k- $ 30k" 
Case 30001 to 50000 
DTSDestination("yearly income") =" $ 30k- $ 50k" 
Case 50001 to 70000 
DTSDestination("yearly income") =" $ 50k- $ 70k" 
Case 70001 to 90000 
DTSDestination("yearly income") =" $ 70k- $ 90k" 
Case 90001 to 110000 
DTSDestination("yearly income") =" $ 90k- $110k" 
Case 110001 to 130000 
DTSDestination("yearly income") =" $110k- $ 130k" 
Case 130001 to 150000 
DTSDestination("yearly income") =" $ 130k- $150k" 
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Case else 
DTSDestination("yearly income") =" $ 150k +" 
Main = DTSTransformStat_OK 
End Function 


2. 加 载 数 据 到 数据 仓库 


从 数据 源 抽取 数据 到 临时 存储 区 后 ,需要 加 载 数据 到 数据 仓库 ,其 具体 步骤 如 图 3. 13 
所 示 。 


启动 Analysis Manager | 


设 定数 据 库 和 数据 源 
建立 数据 库 ， 命 名 "电信 模型 


建立 数据 源 ， 连 接 到 “临时 数据 区 ”数据库 


建立 多 维 数据 集 


向 多 维 数据 集 添加 度量 值 


建立 时 间 维 度 ， 选 择 客户 事实 表 中 的 日 期 
时 间 ， 设 置 年 月 日 ， 建 立时 间 维 度 


建立 员工 维度 ， 选 择 客户 维度 表 ， 按 照 客 
户 性 别 、 客 户 姓 名 的 维度 级 别 建立 


建立 多 维 数据 集 ， 命 名 为 “客户 收益 集 ” 


设计 存储 和 处 理 多 维 数据 集 


选择 存储 模式 ， 多 维 OLAP 


使 用 存储 设计 向 导 设计 存储 


| 


为 多 维 数据 集 创建 分 区 


指定 数据 浙 和 事实 数据 表 ， 现 改 事 实数 据 
表 为 “客户 收益 事实 表 ” 


选择 数据 切片 ， 选 择 “ 时 间 维度 ” 


gal 


建立 分 区 ， 并 命名 


图 3. 13 加载 数 据 到 数据 仓库 的 具体 步骤 
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3.2 实例 二 


随 着 数据 仓库 技术 在 金融 服务 业 ( 如 银行 .保险 等 )、 电 信 业 、 航 空 业 等 资金 充足 、 信 息 化 
起 步 较 早 ,迫切 需要 数据 分 析 行 业 的 成 功 应 用 。 对 其 他 领域 的 众多 企业 而 言 ,如 何在 现 有 数 
据 库 基 础 上 构建 数据 仓库 日 益 迫 切 。 在 此 以 某 公 司 的 数据 仓库 建设 为 例 ,介绍 数据 仓库 从 
设计 到 实现 的 完整 过 程 。 


3.2.1 总 体 结构 


1. 设计 原则 

遵循 统一 平台 架构 、 分 阶段 实施 的 原则 ,整个 公司 数据 仓库 和 统计 分 析 系 统 使 用 相同 的 
软 硬 件 平台 ,并 结合 业务 的 需求 及 业务 现状 ,分 领域 .分 阶段 实施 ; 保证 系统 在 将 来 可 以 平 
滑 地 进行 功能 增加 和 规模 扩充 。 在 整个 设计 过 程 中 ,应 遵循 如 下 原则 ; 

D 系统 实用 原则 ,适应 业务 ,技术 的 发 展 

为 应 对 不 断 发 展 及 变化 的 市 场 环境 ,公司 业务 结构 .业务 流程 .产品 开发 和 市 场 策 略 也 
需要 相应 地 调整 和 优化 , 随 之 而 来 的 是 业务 部 门 数据 需求 的 调整 和 变化 ,相应 的 报表 、 查 询 、 
统计 和 分 析 也 会 发 生变 化 。 因 此 数据 仓库 和 统计 分 析 系 统 需 要 具有 很 强 的 业务 适应 能 力 ， 
能 够 及 时 将 业务 变化 反映 在 报表 、 查 询 和 统计 中 。 同 时 , 随 着 新 技术 不 断 涌现 ,在 系统 的 
建设 过 程 中 也 会 出 现 新 的 概念 和 技术 ,系统 在 建设 之 前 应 充分 考虑 现 有 及 未 来 技术 的 发 
展 趋势 。 

2) 安全 性 和 可 靠 性 原则 

可 靠 性 方面 ,在 业务 系统 数据 正确 完整 的 前 提 下 ,保证 系统 数据 不 丢失 ,不 出 现 数据 不 
一 致 ;安全 性 方面 ,在 不 影响 性 能 的 同时 ,采用 根据 业务 需要 授权 最 小 的 原则 ,确保 系统 的 
内 部 和 外 部 安全 。 充 分 利用 现 有 网 络 等 环境 资源 ,利用 成 熟 的 图 形 界面 技术 和 经 验 , 保 证 用 
户 界面 友好 ,易于 使 用 、 维 护 简单 。 为 了 保证 进度 、 保 证 质量 ,利用 成 熟 的 工具 ,遵循 软件 工 
程 的 原则 。 

2. 总 体 结构 设计 

总 体 结构 设计 是 对 数据 仓库 系统 的 总 体 描述 , 它 从 宏观 和 整体 的 角度 对 数据 仓库 系 
统 的 各 个 组 成 部 分 进行 总 体 设计 ,并 确定 在 设计 过 程 中 遵循 的 总 体 原则 ,从 而 保证 数据 
仓库 各 个 组 成 部 分 在 开发 过 程 中 能 够 依据 同样 的 基础 和 标准 ,在 运行 过 程 中 能 够 相互 配 
合 。 本 例 中 ,采用 建立 CIF 的 数据 仓库 和 MD 的 数据 集 市 相 结 合 的 方法 ,以 及 平行 开发 
模式 搭建 数据 仓库 ,其 总 体 结构 如 图 3. 14 所 示 , 分 为 数据 整合 层 、 数 据 服务 层 和 信息 展 
现 层 。 

1) 数据 整合 层 

该 部 分 主要 完成 从 OLTP 系统 (包含 各 类 数据 源 ,如 ERP、 工 程 项 目 管理 系统 和 业 


SHMEE iow 


kel 
N 


98 


原理 及 应 用 (第 二 版 ) 
C 数据 服务 层 l 信息 展现 层 
FRE E ESTIS 1 
| OLTP | 补 录 模块 | 
1 1 1 " 1 
ger p WAS C) aues | 
EEJ | 
人 5 | 
1 M" 1 
I 1 1 
! [NOTES p ops | BL [= DM Eu = B mese] | 
1 " 多 
1 1l I I 
" 1 维 
ICA | i (aean) |! 
i: CERM) 1 增 量 装载 调度 | Cube 定 制 上 一 | 
1 M" 1 I 1 
Tae E | 
1 ii T 1 1 —— 1 
RN n 后 端 模 块 1 1 前 端 模 块 i 
[———— "—————————— — E | -————— E 
Cy WC 
IT 人 员 业务 分 析 人 员 


数据 需求 
3.14. 某 公 司 数据 仓库 的 总 体 结构 


务 管理 系统 等 ) 通 过 ETL 工具 将 数据 载 和 数据 仓库 。 某 公司 ERP 采 用 的 是 Oracle, B 
OLTP 数据 源 为 Oracle, 由 于 本 例 中 数据 仓库 采用 Oracle 9i 作为 数据 库 服务 器 ,所 以 可 
以 直接 通过 建立 数据 库 连 接 的 方式 增 量 地 从 OLTP 数据 源 中 抽取 数据 (ETL 采用 
Oracle 存储 过 程 )。 如 果 OLTP 数据 源 不 是 Oracle, 则 需 通 过 ODBC, LEL 等 方式 抽取 
数据 。 

2) 数据 服务 层 

该 部 分 主要 完成 数据 仓库 的 数据 分 段 存 储 。 针 对 现 有 各 业务 系统 进行 数据 抽取 、 清 理 

并 有 效 集成 ,按照 主题 进行 组 织 ,并 建立 针对 主题 的 多 维 模型 。 考 虑 处 理 历 史 数 据 的 效率 及 
数据 仓库 远 期 规划 等 问题 ,业界 通常 将 源 系统 加 载 到 数据 仓库 中 进行 数据 分 层 存 储 。 在 本 
例 中 ,将 数据 服务 层 的 数据 存储 划分 为 如 下 区 域 : 

。 临时 存储 区 (Staging Area) 是 为 了 保证 数据 迁移 的 顺利 进行 而 设置 的 增 量 式 的 
数据 存储 空间 , 它 使 业务 系统 原始 数据 进入 数据 仓库 的 缓冲 区 。 需 要 进入 数据 
仓库 各 主题 域 的 数据 首先 直接 快速 传输 到 临时 存储 区 ,然后 再 转移 到 目标 数据 
仓库 中 。 从 业务 系统 (如 ERP.PSP、Notes) 到 临时 存储 区 的 传输 应 避免 进行 复 
杂 的 数据 处 理 , 以 保证 数据 的 快速 导入 而 减少 对 业务 系统 造成 的 压力 。 一 般 
地 ,可 以 创建 与 OLTP 系统 实体 结构 相同 的 属性 ,同时 在 临时 存储 区 中 增加 两 
个 属性 : 

(I) Source code 用 来 表示 来 源 系统 。 


(2) Last Modified Date 用 来 获得 数据 处 理 时 间 。 如 果 原 来 的 数据 中 已 经 具有 上 述 属 
性 , 则 需要 在 新 属性 中 增加 dw 后 级 进行 标识 ; 数据 成 功 导 入 数据 仓库 后 ,应 清空 临时 存储 
区 的 数据 。 

。 操作 数据 存储 区 (Operational Data Store,ODS) 是 为 了 保证 数据 迁移 的 顺利 进行 而 
设置 的 数据 存储 空间 ,需要 进入 数据 仓库 各 个 主题 域 的 数据 从 临时 存储 区 直接 快速 
传输 到 ODS ,再 从 ODS 经 过 清洗 、 转 换 、 映 像 等 复杂 的 数据 处 理 载 和 目标 数据 仓库 
中 。ODS 的 数据 作为 数据 仓库 系统 数据 存储 。 逻 辑 上 ,ODS 可 以 分 为 两 部 分 : 一 
部 分 存放 OLTP 系统 的 历史 数据 ,这 部 分 需要 重新 考虑 是 否 需要 对 OLTP 的 数据 
进行 生命 周期 的 记录 (包括 交易 数据 与 基础 数据 , 即 缓慢 变化 的 处 理 ); 另 一 部 分 存 
放 数 据 仓 库 加 工 的 信息 , 即 ODS 历史 数据 经 过 整合 后 的 信息 ,这 些 信 息 更 加 全 面 地 
反映 一 个 主题 域 中 某 一 事物 的 全 貌 。 

。 中 央 数 据 仓库 (BaseLine) 是 具有 星 型 或 雪花 型 结构 的 实体 ,包括 事实 实体 (Fact 
Entity) 和 维度 实体 (Dimension Entity)。 其 中 ,事实 实体 是 对 某 一 个 事物 (可 能 是 某 
笔 交 易 、 某 个 项 目 \ 某 笔 到 货 明细 , 某 个 任务 ) 各 个 方面 信息 的 全 面 描述 ,描述 的 属性 
包括 该 事物 各 方面 的 度量 信息 ,相关 度量 信息 的 相关 维度 信息 ; 维度 实体 ,此 处 的 
维度 是 与 事实 实体 相关 的 维度 信息 ,包括 很 多 事实 实体 共有 的 维度 信息 ,如 时 间 维 
等 ,以 及 某 一 个 Fact Entity 专 有 的 维度 信息 。Baseline 需要 能 够 支持 最 细 粒 度 级 ， 
保证 可 以 在 最 细 粒 度 级 实现 多 维 分 析 , 即 能 够 同时 支持 汇总 和 细节 数据 的 多 维 
查询 。 

。 数据 集 市 (Data Mart) 是 某 一 主题 域 的 专 有 多 维 数据 区 ,实现 某 一 主题 域 的 多 维 查 
询 。 这 一 部 分 也 包括 事实 实体 和 维度 实体 两 种 实体 ,但 与 Baseline 不 同 的 是 数据 集 
市 的 事实 实体 和 维度 实体 都 是 为 某 一 业务 主题 服务 的 。 

3) 信息 展现 层 

信息 展现 层 是 指 采用 不 同形 式 连接 企业 数据 仓库 ,抽取 不 同 的 数据 ,主要 包括 即席 查 

询 、 统 计 报表 等 。 本 例 中 ,即席 查询 、 统 计 报 表 采 用 BusinessObjects 和 Web Intelligence fF 
为 客户 端 ,可 以 灵活 地 进行 钼 取 、 切 片 和 旋转 等 多 维 分 析 操 作 。 


3.2.2 概念 模型 


数据 仓库 概念 模型 设计 的 目的 是 对 数据 仓库 所 涉及 的 现实 世界 中 所 有 客观 实体 进行 科 
学 ,全 面 地 分 析 和 抽象 ,为 构建 数据 仓库 制定 “蓝图 ”。 在 概念 模型 中 ,常用 E-R 图 作为 描述 
工具 。 在 E-R 图 中 ,长 方 体 表示 实体 , 即 表示 数据 仓库 中 的 主题 域 , 框 内 写 上 主题 域 的 名 
称 ; 椭圆 表示 主题 域 的 属性 ,用 无 向 边 把 主题 域 与 其 属性 连接 起 来 ,有 向 边 表 示 主 题 域 之 间 
的 联系 ( 单 向 边 表示 一 对 多 的 关系 ,双向 边 表示 多 对 多 的 关系 ) ,无 向 边 表示 主题 域 之 间 一 对 
一 的 关系 。 在 此 ,以 质量 绩效 分 析 主 题 为 例 进 行 概念 模型 设计 。 

质量 绩效 分 析 主 要 通过 产品 族 .部门 等 不 同 角度 对 公司 产品 质量 情况 进行 分 析 ,涉及 的 
主要 绩效 指标 (Key Performance Indication ,KPI 包括 紧 急 版 本 发 布 比例 .版 本 测试 不 通过 
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率 . 网 上 客户 解决 率 .研发 网 上 问题 解决 率 和 保修 期 内 产品 故障 率 等 。 质 量 绩效 分 析 的 概念 


模型 如 图 3. 15 所 示 。 


产品 质量 绩效 ie e 
ERA L— roses 区 域 
区 域名 称 


图 3.15 质量 绩效 分 析 的 概念 模型 


3.2.8 逻辑 模型 
逻辑 模型 设计 是 对 概念 模型 设计 中 确定 的 基本 主题 域 进 行 分 析 , 并 详尽 定义 。 本 例 中 ， 
逻辑 模型 的 设计 采用 多 维 模型 ,根据 具体 业务 的 需要 ,设计 为 星 型 .雪花 型 和 星 型 -雪花 型 等 
模式 。 
1. 多 维 模型 设计 
质量 绩效 指标 涉及 相同 的 维度 信息 ,并 且 计算 方法 相同 ,所 以 可 设计 相同 的 事实 表 
实现 对 不 同 绩效 指标 的 分 析 。 由 于 质量 绩效 的 研发 产品 维 信息 涉及 产品 线 维 、 产 品 族 维 、 
产品 开发 团队 维和 测评 产品 维 , 所 以 质量 绩效 分 析 主题 的 逻辑 模型 采用 雪花 型 ,如 图 3. 16 


所 示 。 
1) 时 间 维 表 
几乎 所 有 的 数据 仓库 都 会 包括 时 间 维 表 , 时 间 维 相对 独立 ,变化 较 少 。 本 例 中 时 间 维 表 


的 结构 如 表 3. 9 所 示 。 
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表 3.9 时 间 维 表 
列 名 中 文 名 称 类 型 备 注 

Date_key 日 期 键 Number Not null 
Actual_date 实际 日 期 Datetime Not null 
Week 周 Number Not null 
Month 月 Number Not null 
Quarter 季度 Number Not null 
Year 年 Number Not null 
Effective 状态 (有 效 1, 停 用 0) Number Not null 
Start Week. mark 周 开 始 标记 Varchar2(1) Not null 
End Week mark 周 结束 标记 Varchar2(1) Not null 
Start_Month_mark 月 开始 标记 Varchar2(1) Not null 
End_Month_mark 月 结束 标记 Varchar2(1) Not null 
Start_Year_mark 年 开始 标记 Varchar2(1) Not null 
End_Year_mark 年 结束 标记 Varchar2(1) Not null 
ETL soure code 源 系 统 标识 Varchar2(50) Null 

ETL load mark ETL 加 载 标识 Varchar2(20) Null 

ETL error code ETL 出 错 代码 Varchar2(20) Null 

ETL loading date ETL 加 载 日 期 Date Null 

ETL_update_date ETL 更 新 日 期 Date Null 


2) 研发 产品 线 维 表 
研发 产品 线 维 表 也 是 大 多 数 数据 仓库 都 需要 用 到 的 基本 维 表 之 一 ,本 例 中 研发 产品 线 


维 表 的 结构 如 表 3. 10 所 示 。 


表 3.10 研发 产品 线 维 表 


列 名 中 文 名 称 类 型 备 注 
Seq_id 序列 (代理 键 ) Int Not null 
Product_line_dev_id 研发 产品 线 维 ID Number Not null 
Product_line_dev_code 产品 线 编码 Varchar2(20) Not null 
Product_line_name 产品 线 名 称 Varchar2(50) Not null 
Product_line_pre 产品 线 曾 用 名 Varchar2(50) Not null 
Effective 状态 (有 效 1, 停 用 0) Number Not null 
Start. date 起 用 日 期 Date Not null 
End_date 结束 日 期 Date Null 
Level flag 层次 标识 Int Not null 
Par id 父 项 ID Int Not null 
Par name 父 项 名 称 Varchar2(50) Not null 
Par_level 父 项 层次 Int Not null 
ETL soure code 源 系 统 标识 Varchar2(50) Null 
ETL load mark ETL 加 载 标识 Varchar2(20) Null 
ETL error. code ETL 出 错 代码 Varchar2(20) Null 
ETL loading date ETL 加 载 日 期 Date Null 
ETL update, date ETL 更 新 日 期 Date Null 


值得 注意 的 是 : 


(1) 研发 产品 线 维 表 中 缓慢 变化 的 为 产品 线 编码 和 产品 线 名 称 , 即 随 着 时 间 的 变化 产 
品 线 编码 和 产品 线 名称 可 能 发 生变 化 。 如 某 固 网 产品 的 产品 线 , 变 化 成 终端 固 网 产品 线 , 所 
以 应 保存 原来 的 产品 信息 ,还 要 增加 新 的 产品 信息 。 具 体 处 理 如 下 : 在 维 表 加 载 过 程 通过 
研发 产品 线 维 ID 检测 已 存在 该 产品 线 但 产品 线 名 称 发 生变 化 ,可 采用 将 原来 的 产品 线 标 记 
无 效 , 即 Effective 王 0, 同 时 修改 End. date 为 当前 日 期 ,新 增 一 条 新 的 记录 , 即 Start. date— 
当前 日 期 .End_date 一 NULL、Effective 二 1。 这 样 可 以 保留 原来 的 产品 线 信息 ,同时 又 增加 


新 的 产品 线 信息 。 


(2) 所 有 公共 维 表 应 存储 在 Baseline 层 。 
3) 研发 产品 族 维 表 


研发 产品 族 维 表 和 研发 产品 线 维 表 的 关系 为 典型 的 子 表 和 主 表 的 关系 。 考 虑 维 表 维护 
的 简单 性 和 加 载 的 便捷 性 ,对 研发 产品 族 维 表 和 研发 产品 线 维 表单 独 设计 ,而 不 是 合并 在 同 
一 个 维 表 中 ,本 例 中 研发 产品 族 维 表 的 结构 如 表 3. 11 所 示 。 


表 3.11 研发 产品 族 维 表 


列 名 中 文 名 称 类 型 备 dk 
Seq_id 序列 Int Not null 
Prodfamily dev id 研发 产品 线 维 ID Number Not null 
Prodfamily_code 产品 族 编码 Varchar2(20) Not null 
Prodfamily_name 产品 族 名 称 Varchar2(50) Not null 
Prodfamily_pre 产品 族 曾 用 名 Varchar2(50) Not null 
Prodfamily_name_en 产品 族 英文 名 Varchar2(50) Not null 
Effective 状态 (有 效 1, 停 用 0) Number Not null 
Start. date 起 用 日 期 Date Not null 
End_date 结束 日 期 Date Null 
Level flag 层次 标识 Int Not null 
Product_line_dev_id 研发 产品 线 维 ID Int Not null 
Product line name 研发 产品 线 名 称 Varchar2(50) Not null 
ETL_soure_code 源 系统 标识 Varchar2(50) Null 
ETL load mark ETL 加 载 标识 Varchar2(20) Null 
ETL error code ETL 出 错 代码 Varchar2(20) Null 
ETL loading, date ETL 加 载 日 期 Date Null 
ETL update date ETL 更 新 日 期 Date Null 


值得 注意 的 是 : 研发 产品 族 维 表 中 缓慢 变化 的 为 产品 族 编码 和 产品 族 名 称 ,其 处 理 方 
法 和 研发 产品 线 维 相 似 。 其 中 Product_line_dev_id 和 Product_line_name 为 该 产品 族 的 产 
品 线 信息 ,这 样 可 以 很 方便 地 处 理 某 一 产品 族 的 产品 线 信息 ,在 前 台 OLAP 报表 可 以 很 方 


便 地 在 研发 产品 线 维和 研发 产品 族 维 之 间 进 行 向 上 和 向 下 钻 取 。 


4) 其 他 维 表 设 计 


其 他 维 表 的 设计 可 以 参照 研发 产品 线 维 表 和 研发 产品 族 维 表 ,不 再 著述 。 


5) 事实 表 设 计 


在 本 例 中 ,事实 表 主 要 分 两 类 : 一 类 是 保存 在 Baseline 层 ( 中 央 数 据 仓 库 ) 的 事实 表 , 这 
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类 事实 表 存 放 细 节 数 据 ; 另 一 类 是 保存 在 Data. Mart 层 的 事实 表 , 这 类 事实 表 存 放 某 一 部 
门 或 某 一 领域 内 的 汇总 数据 。Baseline 层 和 Data Mart 层 事实 表 的 物理 结构 有 些 是 一 样 
的 ,唯一 区 别 是 物理 数据 是 分 层 存放 的 。 就 数据 粒度 而 言 ,Baseline 层 和 Data Mart 层 的 事 
实 表 的 数据 粒度 也 是 不 同 的 。Baseline 层 和 Data Mart 层 的 事实 表 在 物理 结构 上 有 的 是 完 
全 不 同 的 ,因为 Data Mart 层 数据 可 以 直接 来 源 于 ODS 层 , 而 不 是 Baseline 层 ; 就 数据 集 
市 的 类 型 而 言 ,数据 集 市 可 以 是 独立 的 和 从 属 的 数据 集 市 。 本 例 中 整个 数据 仓库 的 架构 
非常 灵活 ,综合 了 CIF 数据 仓库 和 MD 数据 集 市 的 优点 ,可 满足 企业 建立 独立 的 数据 集 
市 和 从 属 的 数据 集 市 的 需求 。 所 以 事实 表 的 设计 将 从 Baseline 层 和 Data Mart 层 两 方面 


展开 。 


质量 绩效 分 析 事实 表 的 结构 如 表 3. 12 所 示 。 


表 3.12 质量 绩效 分 析 事 实 表 


列 名 中 文 名 称 类 型 “m È 

Seq_id 序列 Number Not null 
Date, id 日 期 ID Number Not null 
Region id 区 域 ID Number Not null 
Product. id 研发 产品 ID Number Not null 
Department. id RIT ID Number Not null 
KPI code KPI 编码 Varchar2(10) Not null 
Prodfamily_name_en 产品 族 英文 名 Varchar2(50) Not null 
YTD KPI valuenumber 上 年 同期 KPI 值 Number 

KPI_value_number KPI 值 Number Not null 
Period_level 日 期 层次 Varchar2(10) Not null 
KPI_type KPI 类 型 Varchar2(20) Not null 
KPI Factorl KPI 4f 1 Number Not null 
KPI Factor2 KPI 分 子 2 Number Not null 
KPI Factor3 KPI 分母 1 Number Not null 
KPI Factor4 KPI 分 母 2 Number Not null 
YTD KPI factor 上 年 同期 KPI 分子 1 Number Not null 
YTD KPI factor2 上 年 同期 KPI 分 子 2 Number Not null 
YTD KPI factor3 上 年 同期 KPI 分 母 1 Number Not null 
YTD KPI factor4 上 年 同期 KPI 分 母 2 Number Not null 
ETL soure code 源 系统 标识 Varchar2(50) Null 
ETL load mark ETL 加 载 标识 Varchar2(20) Null 
ETL error code ETL 出 错 代码 Varchar2(20) Null 

ETL loading date ETL 加 载 日 期 Date Null 
ETL update, date ETL 更 新 日 期 Date Null 


该 事实 表 在 Baseline 层 和 Data Mart 层 可 保持 相同 的 物理 结构 


是 对 Baseline 层 数据 的 聚合 和 汇总 。 


6) ODS 层 数据 结构 


ODS 层 数据 结构 如 表 3. 13 所 示 。 


,但 Data Mart 层 数据 


表 3.13 ODS 层 数据 结构 


ODS 表 名 称 


源 表 名 称 


ODS_EXP_CONSIGNMENT_ORDER 


EXP CONSIGNMENT ORDER 


ODS EXP. TRAFFIC PLAN 


EXP. TRAFFIC PLAN 


ODS EXP TRAFFIC PLAN ODER 


EXP TRAFFIC PLAN ODER 


ODS RCV. TRANSACTIONS 


RCV TRANSACTIONS 


ODS RCV SHIPMENT LINES 


RCV SHIPMENT LINES 


ODS RCV SHIPMENT HEADERS 


RCV SHIPMENT HEADERS 


ODS PO VENDORS 


PO VENDORS 


ODS PO HEADERS ALL 


PO HEADERS ALL 


ODS MTL SYSTEM ITEM B 


MTL SYSTEM ITEM B 


ODS HR ALL ORG. UNITS 


HR ALL ORG. UNITS 


ODS IBS HKBOXLIST. DETAIL 


IBS HKBOXLIST DETAIL 


ODS IBS HKSENDLIST MASTER 


IBS HKSENDLIST MASTER 


ODS IBS HKSENDLIST DETAIL 


IBS HKSENDLIST DETAIL 


ODS IBS CORPINF 


IBS CORPINF 


ODS IBS TRUCKCODE 


IBS TRUCKCODE 


ODS IBS HKSHIPREC DETAIL 


IBS HKSHIPREC DETAIL 


ODS T PUB DEPT T PUB DEPT 
ODS T PRODUCT T PRODUCT 
ODS T REGION T. REGION 
ODS T ORDERS T ORDERS 
ODS T ACP INFO T. ACP. INFO 


TO 临时 存储 层 数据 结构 
临时 存储 层 数据 结构 如 表 3. 14 所 示 。 


表 3.14 临时 存储 层 数据 结构 


ODS 表 名 称 取 数 方式 | 源 系统 名 称 源 表 名 称 
EXP_CONSIGNMENT_ORDER 每 天 增 量 EBS EXP CONSIGNMENT ORDER 
EXP TRAFFIC PLAN 每 天 增 量 EBS EXP_TRAFFIC_PLAN 
EXP TRAFFIC PLAN ODER 每 天 增 量 ERP EXP TRAFFIC PLAN ODER 
RCV. TRANSACTIONS 每 天 增 量 ERP RCV. TRANSACTIONS 
RCV. SHIPMENT LINES 每 天 增 量 ERP RCV. SHIPMENT. LINES 
RCV SHIPMENT HEADERS 每 天 增 量 ERP RCV_SHIPMENT_HEADERS 
PO_VENDORS 每 天 增 量 ERP PO_VENDORS 
PO_HEADERS_ALL 每 天 增 量 ERP PO_HEADERS_ALL 
MTL SYSTEM ITEM B 每 天 增 量 ERP MTL SYSTEM ITEM B 
HR. ALL ORG UNITS 每 天 增 量 ERP HR ALL ORG UNITS » 
IBS HKBOXLIST. DETAIL 每 天 增 量 ERP IBS_HKBOXLIST_DETAIL 章 
IBS_HKSENDLIST_MASTER 每 天 增 量 ERP IBS_HKSENDLIST_MASTER 数 
IBS_HKSENDLIST_DETAIL 每 天 增 量 ERP IBS_HKSENDLIST_DETAIL 据 
IBS_CORPINF 每 天 增 量 ERP IBS_CORPINF 
IBS_TRUCKCODE 每 天 增 量 ERP IBS_TRUCKCODE E 
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续 表 
ODS 表 名 称 取 数 方式 | 源 系 统 名 称 源 表 名 称 
IBS_HKSHIPREC_DETAIL 每 天 增 量 ERP IBS_HKSHIPREC_DETAIL 
T PUB DEPT 每 天 增 量 ERP |T_PUB DEPT 
T_PRODUCT 每 天 增 量 ERP | T PRODUCT 
T REGION 每 天 增 量 ERP | T REGION 
T ORDERS 每 天 增 量 ERP | T ORDERS 
T ACP INFO 每 天 增 量 ERP | T ACP INFO 
2. 数据 粒度 设计 


本 例 中 Baseline 层 和 Data Mart 层 采 用 的 是 多 维 模型 ,所 以 数据 粒度 设计 也 是 针对 
Baseline 层 和 Data M art 层 。Baseline 层 保 存 企 业 业 务 的 明细 数据 ,该 层 的 数据 粒度 为 低 
粒度 级 (高 细节 级 ); Data Mart 层 保存 企业 某 一 部 门 或 某 一 主题 的 汇总 或 聚合 数据 ,该 层 的 
数据 粒度 为 高 粒度 级 ( 低 细 节 级 ) 。 

W. H. Immon 指出 不 同 数量 级 采用 的 数据 粒度 策略 如 表 2. 1 所 示 ,在 此 数据 粒度 的 选 
择 借鉴 了 其 数据 粒度 设计 策略 。 

质量 绩效 分 析 事实 表 的 数据 在 5 年 内 可 膨胀 到 20 000 000, 所 以 可 考虑 采用 双重 数据 
粒度 ,在 Baseline 层 的 事实 表 超 过 5 年 的 细节 数据 可 导出 到 后 备 存储 设备 ,使 Baseline 层 保 
存 5 年 内 的 明细 数据 。 其 他 维 表 的 数据 增 量 不 大 ,可 采用 单一 粒度 。Baseline 层 绩效 分 析 
事实 表 的 数据 粒度 要 达到 产品 层 ,Data Mart 层 绩效 分 析 事 实 表 的 数据 粒度 达到 产品 族 层 
即 可 。 

3. 分 区 设计 

本 例 中 ,整个 数据 仓库 采用 分 层 存储 。 物 理 上 分 为 四 层 , 即 ODS 层 、 数 据 仓 库 层 、 数 据 
仓库 聚合 层 和 数据 集 市 层 。 由 于 目前 的 数据 量 不 是 很 大 ,因此 还 不 需要 分 区 。 但 随 着 数据 
量 的 增加 和 数据 仓库 的 扩展 ,数据 分 区 是 必然 的 ,如 可 以 按照 时 间 和 地 域 进 行 分 区 。 


3.2.4 物理 模型 


本 例 中 ,数据 仓库 物理 模型 设计 是 在 Oracle 9i 数据 库 基 础 上 展开 的 。 

1. 设计 原则 

1) 表 结 构 设 计 原 则 

(1) 列 的 数据 类 型 

。 数字 类 型 建议 使 用 Number 类 型 ,一般 不 推荐 使 用 Integer 或 Float 类 型 。 

。 如 果 类 型 为 字符 类 型 ,一 般 不 要 使 用 Char 类 型 ,建议 使 用 Varchar2 。 

。 一 般 情况 下 ,尽量 避免 使 用 Type、.LONG、BLOB 和 CLOB 等 类 型 。 

。 如 果 源 系统 为 非 Oracle 数据 库 , 如 果 数 据 类 型 在 Oracle 中 没有 直接 对 应 的 数据 类 

型 ,参考 Oracle 手册 选择 相近 的 数据 类 型 。 

(2) 列 的 长 度 

如 果 源 系统 的 字符 集 和 数据 仓库 的 字符 集 不 一 致 ,需要 考虑 调整 Varchar2 长 度 。 如 果 
源 系 统 的 中 文 存储 方式 为 两 个 字 节 存 储 一 个 中 文字 符 ,在 数据 仓库 中 表 的 长 度 应 该 扩大 ( 建 


议 3 倍 ) 。 如 果 扩 大 3 倍 后 超过 4000 FH ,统一 定义 为 4000。 

(3) PCTUSED 和 PCTFREE 参数 

根据 不 同 的 要 求 , 表 可 以 分 为 三 类 : 基本 没有 更 新 .少量 更 新 和 大 量 更 新 。 临 时 存储 区 
的 表 基 本 属于 没有 更 新 的 类 型 ,每 次 插入 新 数据 先 Truncate 表 , 不 做 更 新 和 删除 操作 。 
ODS Baseline 层 的 表 大 部 分 属于 少量 更 新 的 类 型 ,以 Insert 为 主 , 少 量 更 新 。Data Mart 层 
的 表 属 于 大 量 更 新 的 类 型 ,主要 是 汇总 `. 更 新 和 删除 操作 比较 频繁 。 根 据 不 同类 型 ， 
PCTUSED 和 PCTFREE 参数 建议 设置 如 下 

基本 没有 更 新 PCTUSED—90.PCTFREE—0 


少量 更 新 PCTUSED=80,PCTFREE=10 
大 量 更 新 PCTUSED=70,PCTFREE=20 


(4) PARALLEL 参数 

为 了 提高 性 能 ,可 以 考虑 使 用 PARALLEL 参数 ,语法 为 PARALLEL(DEGREE n),n 
应 该 与 表 空 间 的 数据 文件 数量 一 致 ,如 果 表 空间 的 数据 文件 为 5 个 ,设置 为 PARALLEL 
(DEGREE 5)。 由 于 使 用 并 发 方式 需要 使 用 较 多 的 系统 资源 ,建议 在 需要 提高 性 能 时 使 用 ， 
一 般 情况 不 建议 使 用 ,设置 为 NO PARALLEL 即 可 。 

(5) LOGGING 参数 

数据 仓库 中 一 般 不 需要 进行 Log 处 理 ,设置 为 NO LOGGING 即 可 。 

(6) 键 设置 

在 数据 仓库 表 的 设计 中 ,不 建议 为 表 创建 主键 或 外 键 ,如 果 需 要 进行 约束 ,使 用 唯一 索 
引 或 程序 逻辑 等 方式 代替 主键 或 外 键 。 如 果 必 须 创 建 主键 ,在 定义 主键 时 , 先 创建 唯一 索 
引 , 再 创建 主键 ,不 要 直接 创建 主键 。 

(7) 表 空 间 参数 

表 空 间 参 数 务必 和 Schema 的 默认 表 空 间 一 致 , 且 不 要 与 索引 公用 表 空间 。 

(8) 表 存 储 参 数 

表 的 初始 大 小 建议 设置 为 预计 大 小 的 1/5 一 1/3 ,扩展 参 数 可 以 不 设置 。 

2) 表 物 理 设计 原则 

表 物 理 设计 原则 如 表 3. 15 所 示 。 


表 3.15 表 物 理 设 计 原则 


设 计 项 内 容 

索引 PCTFREE 参数 索引 的 PCTFREE 建议 为 30 

索引 PARALLEL 和 LOGGING | 索引 PARALLEL 和 LOGGING 和 表 的 相关 参数 设置 原则 相同 

索引 存储 参数 建议 初始 设置 为 预计 大 小 的 1/3 

位 图 索引 在 数据 仓库 中 ,有 时 需要 设置 位 图 索引 ,一 般 不 建议 使 用 ,使 用 前 先 
综合 评估 影响 

mr 表 和 索引 的 创建 脚本 必须 包括 Schema, 指 定 完整 参数 ,不 要 遗漏 表 
空间 参数 

2. 物理 模型 设计 


1) 临时 存储 区 的 物理 模型 设计 
(1) Schema list 
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(2) 表 结 构 和 索引 

临时 存储 区 中 表 结 构 基 本 和 源 系统 对 应 表 一 致 , 表 名 一 般 相同 ,可 参考 逻辑 模型 设计 中 
Staging 层 数据 结构 。 一 般 情 况 下 临时 存储 区 中 的 表 不 使 用 索引 。 

2) ODS 层 物理 模型 设计 

(1) Schema list 

(2) 表 结 构 和 索引 

ODS 的 表 结 构 和 临时 存储 区 中 表 结 构 基 本 一 致 ,可 参考 逻辑 模型 设计 中 ODS 的 数据 


3) Baseline 层 物 理 模 型 设计 

(1) Schema list 

(2) 表 结 构 和 索引 

对 应 缓慢 变化 维 ,要 为 所 有 缓慢 变化 的 列 建立 唯一 索引 。 

4) Data Mart 层 物理 模型 设计 

(1) Schema list 

(2) KPI 事实 表 结 构 和 索引 

数据 集 市 中 KPI 事实 表 由 于 更 新 较 多 ,PCTUSED=70, 索 引 PCTUSED 要 求 与 表 的 
一 致 。 


3.2.5 数据 清洗 


为 保证 数据 仓库 的 数据 质量 ,对 正式 进入 数据 仓库 的 数据 必须 采用 有 效 的 方式 进行 检 
查 。 如 前 所 述 ,通常 数据 清洗 可 购买 专用 工具 ,也 可 以 通过 编写 程序 实现 。 本 例 中 ,采用 
PL/SQL 编程 对 ODS 层 的 数据 进行 清洗 ,由 于 数据 仓库 中 数据 质量 涉及 方方面面 的 问题 ， 
在 此 着 重 阐述 接口 数据 的 检查 ,从 而 解决 数据 仓库 “垃圾 进 ,垃圾 出 ”的 问题 。 

1. 清洗 内 容 

本 例 中 数据 源 主要 来 自 Oracle ERP 系统 和 其 他 管理 信息 系统 ,涉及 的 清洗 内 容 包括 : 

。 实体 完整 性 检查 。 如 研发 产品 维 中 的 产品 代码 不 能 为 空 ,产品 的 状态 只 能 为 1 或 0， 
不 能 为 空 等 。 
参照 完整 性 检查 CReferential Integrity) 。 如 研发 产品 族 维 表 中 的 产品 线 编码 是 研 
发 产品 线 维 表 的 外 键 。 

。 业务 规则 的 检查 。 如 产品 返回 率 的 返还 日 期 必须 大 于 产品 的 发 货 日 期 。 

2. 清洗 规则 设计 

数据 清洗 逻辑 模型 如 图 3. 17 所 示 , 其 中 表 CHK_RULE_DEF、 表 CHK_TABLE_ 
RULE_DEF、 表 CHK_FIELD_RULE_DEF 和 表 CHK REFERENCE KEY 用 来 保存 数据 
清洗 所 用 元 数据 ,数据 清洗 元 数据 是 在 程序 中 创建 初始 脚本 实现 的 。 通 过 元 数据 定义 可 
以 灵活 驱动 多 种 数据 清洗 规则 。 表 CHK CHECK. STATUS, X CHK_EXCEP_LOG 和 
表 CHK_ERROR_LOG 用 来 保存 数据 清洗 程序 执行 的 状态 和 执行 每 项 清洗 规则 的 检查 
结果 。 


CHK_RULE_DEF CHK TABLE RULE DEF CHK. CHECK. STATUS 


€ RULE ID € TABLE NAME & CHK ID 
RULE REF MIN NUM ROW ,|& RULE ID j 
RULE DESC MAX NUM ROW ! + 
PROC NAME PARPMETERI CHECK DATE 
REMARK PARPMETER2 STATUS 
PARPMETER3 
PARPMETERA 
CHK FIELD RULE DEF 
€ TABLE NAME CHK. REFERENCE KEY 
€ FIELD NAME €, REF ID CHK EXCEP LOG CHK. ERROR LOG 
FIELD TYPE CHILD TABLE & CHI PE €, ERROR ID 
NULLABLE CHILD FIELD & RULE ID(FK & CHK ID(FK) 
MIN. VAIDE PARENT TABLE LIDEK) €, RULE ID(FK) 
MAX VAIDE PARENT FILED TABLE NAME TABLE NAME 
BUSES KEY Peso | | Cei 
PARAMETER2 BEMAR ERROR. SQL 
PARAMETER3 
PARAMETER4 


图 3.17 数据 清洗 逻辑 模型 


3.2.6 ETL 


完成 上 述 设计 , 即 完成 了 搭建 存储 企业 数据 的 “仓库 ,但 真正 发 挥 所 搭建 “仓库 ”的 作 
用 ,必须 为 其 装 入 大 量 有 价值 的 数据 。 通 常数 据 源 的 数据 格式 存在 很 大 的 差异 ,为 了 保证 数 
据 仓 库 的 数据 完整 性 ,ETL 实现 数据 的 抽取 、 转 换 、 清 洁 和 装载 ,最终 利用 分 析 工 具 实 现 分 
析 , 支 持 企业 经 营 决策 。 

本 例 中 ,ETL 工具 采用 CA 公司 的 Advantage Transformer Script Manager 2. 0( 简 称 
ADT) ,数据 库 平 台 为 Oracle 9i。 

1. 数据 抽取 

从 外 部 源 系 统 加 载 数据 到 数据 仓库 的 临时 存储 区 ,可 以 通过 SQL * Loader、 外 部 表 、 导 
入 导出 、PL/SQL 等 方式 加 载 。 如 将 表 EXP_CONSIGNMENT_ORDER( 源 系统 为 Oracle 
ERP) 加 载 到 临时 存储 区 ,如 果 源 数据 量 小 于 1GB 实现 代码 如 下 : 


procedure sp exp consignment order 
as 


Lv program name varchar2(30) := 'sp exp consignment order'; 
Lv table name varchar2(32) := 'exp consignment order'; 
Lv key namel varchar2(30) := 'ID'; 

Lv key name2 varchar2(30) := 'Language'; 

Lv key information varchar2(2000) : - null; 


Ln keyl exp consignment order. id $ type; 

Ln key2 exp consignment order. Language' $% type; 
Ln ins counter number: = 0; 

Ln upd counter number: = 0; 

Ld start date date; 
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Ld end date date; 
Ln commit label smallint := 0 ; —— commit label 
C commit rec constant smallint : - 5000; —— commit rows each loop 
Cusor cur exp consignment order is 
Select id, 
Language 
Swft flag 
---- 省略 部 分 列 
From exp consignment order(@tb erp -- dblink 连接 源 系 统 
Where last update date > = Ld start date 
And last update date <= Ld end date 
——- Program Start 
Pkg global.sp exp consignment order(Lv program name) 
Pkg global.sp gb program date('O0M', Ld start date, Ld end date); 
Execute immediare 'TRUNCATE TABLE STGDM. exp consignment order'; 
For rec exp consignment order in cur exp consignment order 
Loop 
Begin 
In keyl: = rec exp consignment order. id 
In Key2: = rec exp consignment order. Language 
Insert intoexp consignment order 
(ID, Language, source lang --- 省 略 部 分 列 ) 
Values 
(rec_exp_consignment_order. id, rec_exp_consignment_order. Language) 
Ln_ins_counter : = Ln_ins_counter +1 
Ln commit label : = Ln commit label + 1 
End 
If Ln commit label» - C commit rec 
Begin 
Commit; 
Ln commit label : = 0; 
End if 
End loop 
Commit; 
—- Progarm Complete 
Pkg global.sp gb progarm complete(lv program name,ln upd counter,ln ins counter) 
Exception 
When others then 
—-—- program Error Raise 
Lv key information := lv table name || ':'||lv key namel||'- 'to char(1n key1)||':'|llv key. 
name2 | |'= 'to char(1lv key2); 
Pkg global.sp progarm error raise(lv program name,lv key information); 
End sp exp consignment order 


加 载 临时 存储 区 数据 到 ODS 层 可 参照 上 面 从 源 系统 到 临时 存储 区 的 加 载 过 程 , 主 要 区 
别 是 如 果 需 要 处 理 Purge/ Delete, 应 增加 Purge delete Flag 字段 。 


2. 数据 转换 
数据 从 源 系统 加 载 到 临时 存储 区 ,还 需要 经 过 一 系列 转换 。Oracle 9i 内 部 数据 转换 主 
要 采用 三 种 方式 : 


。 使 用 SQL 进行 转换 
。 [EJ] PL/SQL 进行 转换 
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。 使 用 表 隐 数 进行 转换 

本 例 中 数据 转换 主要 采用 SQL, 所 以 主要 介绍 Oracle 9i 使 用 SQL 执行 合并 的 转换 方 
法 。 在 更 新 研发 产品 维 表 Product dev dim 时 , 源 系统 具有 和 Product. dev. dim 相同 的 结 
构 , 可 通过 以 下 代码 实现 。 


Merge into product dev dim pdd 

Using product dev pd 

On(pdd.prod id = pd.prod id) 

When matched then 

Update set 

Pdd.code = pd.code, 

Pdd.name - pd.name 

When not matched then 

Insert 
(product id, product code, product name, product pre,effective,start date, 
end date) 

Values 

(pd. product id, pd. product code, pd. product name, product pre, pd. effective, pd. start date, 

pd. end date) 


3. 数据 清洗 
本 例 中 数据 清洗 依照 前 面 数 据 清 洗 的 设计 方案 , 即 
(1) 创建 清洗 脚本 (脚本 创建 在 ODS 层 ) ,实现 代码 如 下 : 


CREATE TABLE CHK RULE DEF ( 


RULE ID NUMBER NOT NULL, 
RULE REF VARCHAR2(10), 

RULE DESC VARCHAR2 (240), 

IS ENABLED CHAR(1), 

PROC NAME VARCHAR2(60), 

REMARK VARCHAR2 (240) 


) 
ALTER TABLE CHK RULE DEF 
ADD CONSTRAINT PK CHK RULE MASTER PRIMARY KEY (RULE ID) 


CREATE TABLE CHK TABLE RULE DEF ( 


TABLE NAME VARCHAR2 (30) NOT NULL, 

MIN NUM ROW NUMBER, 

MAX NUM ROW NUMBER, 

PARAMETER VARCHAR2(100), 第 

PARAMETER2 VARCHAR2(100), å 

PARAMETER3 VARCHAR2 (100), 

PARAMETER4 VARCHAR2(100) 数 

) 全 

库 
实 
例 
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(2) 初始 化 清洗 元 数据 ,实现 代码 如 下 : 


—- DELETE DATA 

delete from CHK TABLE RULE DEF; 
delete from CHK RULE DEF; 
delete from CHK REFERENCE KEY; 
delete from CHK FIELD RULE DEF; 


—- INSERT META DATA FOR DATA CLEARING 

insert into CHK FIELD RULE DEF (TABLE NAME, FIELD NAME, FIELD TYPE, NULLABLE, MIN VALUE, 
MAX VALUE, CHK STRING, BUSINESS KEY, PARAMETERi, PARAMETER2, PARAMETER3, PARAMETER4) 

values ('ACCOUNTS', 'REFERENCE', 'C', 'N', null, null, null, 'Y', null, null, null, null); 

insert into CHK FIELD RULE DEF (TABLE NAME, FIELD NAME, FIELD TYPE, NULLABLE, MIN VALUE, 
MAX VALUE, CHK STRING, BUSINESS KEY, PARAMETER1, PARAMETER2, PARAMETER3, PARAMETER4) 

values ('ACCOUNT CONTRACTS', 'REFERENCE', 'C', 'N', null, null, null, 'Y', null, null, null, 
null); 

insert into CHK FIELD RULE DEF (TABLE NAME, FIELD NAME, FIELD TYPE, NULLABLE, MIN VALUE, 
MAX VALUE, CHK STRING, BUSINESS KEY, PARAMETER1, PARAMETER2, PARAMETER3, PARAMETER4) 
values ('ADDRESSES', 'REFERENCE', 'C', 'N', null, null,null, 'Y', null, null, null, null); 


insert into CHK RULE DEF (RULE ID, RULE REF, RULE DESC, IS ENABLED, PROC NAME, REMARK) 

values (1, '', 'Check proper surrogate key(check business key)', 'N', 'PKG SANITY CHECK.SP 
CHK BUSINESS KEY', null); 

insert into CHK RULE MASTER (RULE ID, RULE REF, RULE DESC, IS ENABLED, PROC NAME, REMARK) 

values (2, '', 'Check unique of record', 'N', 'PKG SANITY CHECK.SP CHK UNIQUENESS', null); 

insert into CHK RULE MASTER (RULE ID, RULE REF, RULE DESC, IS ENABLED, PROC NAME, REMARK) 


(3) 执行 数据 清洗 程序 ,实现 代码 如 下 : 
CREATE OR REPLACE PACKAGE PKG DATA CHECK AS 


PROCEDURE SP CHK CURRENT IND; 

PROCEDURE SP CHK VALID DATE; 

PROCEDURE SP CHK SURROGATE KEY; 

PROCEDURE SP CHK BUSINESS KEY; 

PROCEDURE SP CHK UNIQUENESS; 

PROCEDURE SP CHK FOREIGN KEY; 

PROCEDURE SP CHK SKELETON RECORD; 

PROCEDURE SP ERRM LOG(P CHK ID NUMBER,P RULE ID NUMBER,P TABLE NAME VARCHAR2, P CHK 
SQL VARCHAR2,P SQL ERRM VARCHAR2) ; 

PROCEDURE SP CHK; —- desc: the check loop 

FUNCTION F GET BUSINESS KEY(P TABLE NAME VARCHAR2) RETURN VARCHAR2; 

PKG SDATE VARCHAR2(10) : = TO CHAR(SYSDATE, 'dd/mm/yyyy'); / * today string * / 


TYPE REF CUR IS REF CURSOR; / * Ref Current Type * / 
REPORT APP ID CONSTANT VARCHAR2(20): = 'GSM'; / * application name * / 
DATA SCHEMA CONSTANT VARCHAR2(30): = 'DATAPLAT'; / * the data schema * / 


SP SCHEMA CONSTANT VARCHAR2(30): = 'DP_RECON'; / * the sanity check schema(not used) * / 


PKGB CHECK ID NUMBER; /* current check id * / 
PKGB RULE ID NUMBER; / * current rule id * / 
DEBUGING BOOLEAN : = FALSE; /x debug mode True: when error accured will output 


error message 
False: when error accured not output the error message * / 
END PKG DATA CHECK; 
CREATE OR REPLACE PACKAGE BODY pkg data check 
AS 
v sql LONG; 
FUNCTION f get business key (p table name VARCHAR2) 
RETURN VARCHAR2 
IS 
v return VARCHAR2 (1024); 


CURSOR cur business key (p table VARCHAR2) 
IS 
SELECT field name 
FROM chk field rule def 
WHERE UPPER (business key) - 'Y' 
AND UPPER (table name) = UPPER (p table); 


-- v business key VARCHAR2 (30); 
BEGIN 

v return: ''; 

OPEN cur business key (p table name); 

LOOP 


FETCH cur business key 
INTO v business key; 
EXIT WHEN cur business key % NOTFOUND; 


IF v return !- ''THEN 
v return := v return || '|| ', "| | (G TABLE. ' | | v business key; 
ELSE 
v return := '@TABLE. ' || v business key; 
END IF; 
END LOOP; 


CLOSE cur business key; 
RETURN v return; 
EXCEPTION 
WHEN OTHERS THEN 
IF cur business key % ISOPEN THEN 
CLOSE cur business key; 
END IF; 


END; 


4. 数据 装载 
本 例 中 , ETL 按照 Staging ^ ODS — Baseline > Data Mart 的 流程 ,所 有 程序 由 
Scheduler 统一 调度 。 以 质量 绩效 分 析 为 例 , 其 装载 过 程 包 括 初始 装载 (Initial Loading) 和 
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增 量 装载 (Incremental Loading) 两 部 分 。 初 始 装载 相对 简单 ,这 里 主要 介绍 增 量 装载 ,如 
图 3. 18 所 示 为 增 量 装载 的 完整 流程 。 


( 向 

^ 

TERES 
CENE 

1 


程序 执行 队列 I7 


! 6 N 
ODS 进程 调用 


( 增 量 加 载 ) 7 
林 阶 段 程序 结束 " 
2 Y/N 结束 ? 
了 8 
中 央 数据 仓库 进程 调用 uau 
( 增 量 加 载 ) 9 ¥ 程序 正常 结 
3 C 


程序 开始 运行 


! 11 
数据 集 市 进程 调用 
( 增 量 加 载 ) 


4 


! 
立方 体 进程 调用 
( 增 量 加 载 ) 

5 


3.18 增 量 装载 流程 


程序 异常 结束 


其 中 : 

。 步骤 1—5 是 增 量 调度 程序 总 调度 的 5 个 阶段 。 

。 步骤 6,7,8,9 增 量 调度 运行 每 个 阶段 的 运行 状态 有 4 种 (Q/S/C/F) ,其 中 Q 
(Queued) 表 示 程 序 进入 执行 队列 中 ,S(Started) 表 示 程 序 开始 运行 ,C(Completed) 表 示 
程序 正常 结束 ,F(Failed) 表 示 程 序 异常 结束 。 

。 程序 运行 的 4 种 状态 保存 在 表 program. reference. table 中 ,调度 程序 判断 表 
program_reference_table 中 各 程序 的 状态 。 

。 步骤 16: 增 量 调度 程序 被 Server 调用 ,进入 队列 中 ,在 program reference table X 
中 本 程序 状态 为 Q。 

。 步骤 17: 增 量 程序 进入 执行 队列 后 被 执行 ,执行 时 program. reference table 表 中 本 
程序 状态 为 S。 

。 步骤 18: 增 量程 序 执行 完毕 后 .在 program_reference_table 表 中 本 程序 状态 为 C， 
同时 进入 下 一 个 程序 的 执行 。 

。 步骤 19: 当 所 有 的 程序 执行 完毕 后 , 增 量 装载 结束 。 


114 


第 4 章 ”数据 仓库 应 用 一 一 OLAP 和 OLAM 


由 数据 仓库 的 定义 可 知 数据 仓库 是 面向 决策 支持 的 , 即 各 种 分 析 型 应 用 ,如 联机 分 析 处 
理 .数据 挖掘 .商业 智能 (Business Intelligence, BD 和 客户 关系 管理 等 ,数据 仓库 的 数据 通过 
OLAP 和 DM 后 ,转换 为 信息 ,并 最 终 形成 知识 ,为 科学 决策 提供 辅助 支持 。 


4.1 OLAP 


1. EX 

OLAP 是 基于 数据 仓库 的 一 种 数据 分 析 和 处 理 技术 ,也 可 以 看 成 是 基于 数据 仓库 的 一 
种 软件 工具 。OLAP 侧重 于 对 决策 者 和 高 层 管理 人 员 的 支持 ,可 以 根据 分 析 人 员 的 要 求 ， 
快速 .灵活 地 实现 大 量 数据 的 复杂 查询 ,并 以 一 种 简单 直观 的 形式 展现 查询 结果 。 基 于 数 
据 仓 库 实 施 OLAP, 可 以 帮助 企业 管理 者 掌握 企业 经 营 状 况 , 了 解 市 场 需求 ,制定 科学 决策 ， 
提高 核心 竞争 力 。OLAP 的 目标 是 满足 决策 支持 或 满足 在 多 维 环境 下 特定 的 查询 和 报表 

OLAP 最 早 是 由 关系 数据 库 之 父 E. F. Codd 于 1993 年 提出 的 。 当 时 , Codd 认为 
OLTP 已 不 能 满足 终端 客户 对 数据 库 查 询 分 析 的 需要 ,SQL 对 大 型 数据 库 进行 的 简单 查询 
也 不 能 满足 客户 分 析 的 需求 。 客 户 的 决策 分 析 需 要 对 关系 数据 库 进行 大 量 计算 才能 完成 ， 
而 查询 的 结果 并 不 能 满足 决策 者 提出 的 需求 。 因 此 Codd 提出 多 维 数据 库 和 多 维 分 析 的 概 
念 , 即 OLAP。 

2. 分 类 

根据 数据 存储 方式 的 不 同 ,OLAP 可 分 为 ROLAP(Relational OLAP)、MOLAP(Multi- 
Dimensional OLAP) 和 HOLAP(Hybrid OLAP) 三 类 。ROLAP 是 指 基 于 关系 数据 库 的 
OLAP, 以 关系 数据 库 为 核心 ,以 关系 型 结构 进行 多 维 数据 的 表示 和 存储 。ROLAP 将 多 维 
数据 库 的 多 维 结构 划分 为 两 类 表 : 一 类 是 事实 表 , 存 储 数据 和 维 关键 字 ; 另 一 类 是 维 表 , 即 
对 每 个 维 至 少 使 用 一 个 表 来 存放 维 的 层次 成员 类 别 等 维 的 描述 信息 。 维 表 和 事实 表 通 过 
主 关 键 字 和 外 关键 字 关 联 起 来 ,形成 了 “ 星 型 模式 ”。 对 于 层次 复杂 的 维 ,为 避免 元 余数 据 占 
用 过 大 的 存储 空间 ,可 以 使 用 多 个 表 描述 ,此 时 星 型 模式 扩展 为 “雪花 型 模式 ”。MOLAP 是 
指 基 于 多 维 数据 组 织 的 OLAP, 以 多 维 数据 组 织 方式 为 核心 , 即 MOLAP 使 用 多 维 数组 存 
储 数据 。 多 维 数据 在 存储 中 形成 立方 体 结构 ,在 MOLAP 中 对 立方 体 的 旋转 、 切 块 和 切片 
是 产生 多 维 数据 报表 的 主要 技术 。HOLAP 是 指 基 于 混合 数据 组 织 的 OLAP, 如 低层 是 关 
系 型 的 ,高 层 是 多 维 的 。 这 种 方式 具有 更 好 的 灵活 性 。 实际 上 , HOLAP 是 MOLAP 和 
ROLAP 的 折 中 。 对 于 常用 的 维和 维 层次 ,在 HOLAP 中 使 用 多 维 数据 表 记 录 , 对 于 用 户 不 
常用 的 维和 数据 ,HOLAP 采用 类 似 于 ROLAP 的 星 型 模式 存储 。 当 用 户 需要 访问 不 常用 
的 数据 时 ,HOLAP 就 会 把 简化 的 多 维 数据 表 和 星 型 模式 相 拼 合 , 从 而 得 到 完整 的 多 维 数据 
表 。HOLAP 多 维 数据 表 中 的 维度 少 于 MOLAP 多 维 数据 表 的 维度 ,数据 存储 容量 也 小 于 


MOLAP 方 式 。 但 是 ,在 数据 存 取 速度 上 HOLAP 又 低 于 MOLAP。HOLAP 的 主要 性 能 
都 介 于 MOLAP 和 ROLAP 之 间 ,其 技术 复杂 度 高 于 ROLAP 和 MOLAP。 

根据 数据 组 织 方式 的 不 同 ,OLAP 可 分 为 基于 多 维 数据 库 的 OLAP(MD OLAP) 和 基 
于 关系 数据 库 的 OLAP(CROLAP) 两 种 。 前 者 响应 速度 快 、 执 行 效率 高 ,但 由 于 结构 的 局 限 ， 
灵活 性 不 够 。 与 之 相 比 ,后 者 建立 在 大 量 现 有 数据 库 ( 数 据 仓库 ) 的 基础 上 ,灵活 性 扩展 性 
要 高 得 多 ,并且 支 持 大 数据 量 和 高 维 的 能 力也 要 强 于 前 者 。 因 此 ,虽然 在 响应 速度 .执行 效 
率 上 差 一 点 ,仍然 得 到 广泛 应 用 , 现 有 的 OLAP 工具 大 多 基于 后 者 。 

目前 ,针对 OLAP 的 研究 相当 活跃 ,对 OLAP 的 理解 也 不 断 深 入 。 有 人 提出 了 OLAP 更 
为 简洁 的 定义 ,如 Nigel Pendse 提出 的 FASMICFast Analysis Of Shared Multidimensional 
Information) ,所 采用 的 技术 包括 客户 端 /服务 器 结构 、 时 间 序 列 分 析 模 型 .并 行 处 理 、 面 向 
对 象 .数据 存 储 和 多 线程 技术 等 。 

3. 典型 操作 

OLAP 对 数据 仓库 数据 的 操作 基于 多 维 视图 (或 称 超 立 方 体 )。 对 立方 体 的 典型 操作 
包括 切片 、 切 块 和 旋转 等 ,如 图 4.1 所 示 。 

。 切片 是 指 选 定 多 维 数组 的 一 个 二 维 子 集 。 

。 切 块 是 指 选 定 多 维 数组 的 一 个 三 维 子 集 。 

。 旋转 是 指 改 变 一 个 立方 体 显示 的 维 方向 ,使 人 们 可 以 从 不 同 的 角度 更 加 清晰 、 直 观 

地 观察 数据 。 

此 外 还 包括 其 他 一 些 操作 ,如 : 

。 上 卷 是 指 沿 某 一 个 维 的 概念 分 层 向 上 归 约 ,并 且 通 过 维 规约 ,在 立方 体 上 进行 聚集 。 

。 下 外 是 上 卷 的 逆 操 作 , 由 不 太 详细 的 数据 到 更 详细 的 数据 。 

。 钻 取 是 指 对 多 个 事实 表 进 行 查询 。 

。 钻 透 是 指 对 立方 体操 作 时 ,利用 数据 库 关 系 , 钻 透 立方 体 的 底层 ,进入 后 端的 关 


y n gi 
E d 
地 域 产品 
H 旋转 
> iu 
年 份 地 域 
图 4.1 立方 体 的 典型 操作 
4. 主要 特点 


OLAP 是 数据 仓库 的 分 析 展 示 工 具 , 建 立 在 数据 多 维 视图 的 基础 上 。 其 主要 特点 一 是 
在 线 COnline) ,体现 为 对 用 户 请 求 的 快速 响应 和 交互 式 操作 ; 二 是 多 维 分 析 , 这 也 是 OLAP 
技术 的 核心 所 在 。 
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OLAP 主要 通过 多 维 方式 实现 数据 分 析 、 查 询 和 报表 ,不 同 于 传统 的 OLTP。 首 先 ， 
OLTP 主要 面向 公司 员工 ,OLAP 则 主要 面向 公司 领导 层 ; 其 次 ,OLTP 应 用 主要 完成 客户 
的 事务 处 理 , 其 数据 基础 是 操作 型 数据 库 , 如 民航 订 票 系统 银行 储蓄 系统 等 ,通常 需要 进行 
大 量 的 更 新 操作 ,同时 对 响应 时 间 要 求 较 高 。 而 OLAP 是 以 数据 仓库 或 数据 多 维 视图 为 基 
础 的 数据 分 析 处 理 , 是 针对 特定 问题 的 联机 数据 访问 和 分 析 ,一 般 不 进行 数据 修改 只 是 查 
询 ,其 应 用 主要 是 分 析 用 户 的 当前 及 历史 数据 以 辅助 决策 ,典型 的 应 用 包括 对 银行 信用 卡 风 
险 的 分 析 与 预测 、 公 司 市 场 营销 策略 的 制定 等 ,主要 是 进行 大 量 的 查询 操作 ,对 响应 时 间 的 
要 求 不 太 严 格 。 

5. 实现 途径 

OLAP 实现 通常 采用 三 层 客户 端 /服务 器 (Client/Server,C/S) 结 构 。 第 一 层 是 数据 仓 
库 服务 器 ,实现 与 基层 运营 的 数据 库 系 统 的 连接 ,完成 数据 的 一 致 性 和 共享 ; 第 二 层 是 
OLAP 服务 器 ,根据 最 终 服务 请 求 分 解 成 OLAP 的 各 种 操作 ,并 使 用 数据 仓库 中 的 数据 完 
成 这 些 操作 ; 第 三 层 是 前 端 展 现 工具 ,用 于 将 OLAP 服务 器 处 理 得 到 的 结果 以 直观 的 方式 ， 
如 多 维 报表 、 饼 图 和 三 维 图 等 展现 给 最 终 用 户 。 

6. 评价 标准 

1993 年 ,E. F. Codd 提出 了 关于 OLAP 的 12 条 评价 标准 , 旨 在 加 深 对 OLAP 的 理解 ， 
后 来 扩充 到 18 条 。 对 于 设计 数据 仓库 以 及 使 用 OLAP 的 用 户 而 言 , 理 解 这 些 评价 标准 是 
十 分 必要 的 。 

18 条 准则 的 具体 内 容 如 下 : 

准则 1 多 维 性 ,能 对 多 维 数据 进行 切片 . 切 块 和 旋转 等 操作 ; 

准则 2 直观 性 ,能 为 用 户 提供 直观 、 易 用 的 数据 操作 ; 

准则 3 可 访问 性 ,OLAP 以 合适 的 方式 存储 数据 ,便于 用 户 访问 ; 

准则 4 解释 性 批 处 理 , 在 OLAP 中 常 由 OLAP 引擎 或 服务 器 上 存储 立方 体 的 混合 工 
RKW; 

准则 5 OLAP 分 析 模 型 ,在 高 层 获 取 OLAP 所 支持 的 分 析 数 据 ,包括 静态 描述 性 报 
告 .解释 性 分 析 、 假 设 性 分 析 和 预测 性 分 析 等 ; 

准则 6 客户 端 /服务 器 结构 性 ,用户 通过 客户 端 与 服务 器 的 松散 耦合 实现 OLAP; 

准则 7 透明 性 或 开放 性 ,OLAP 及 其 数据 源 对 用 户 透 明和 开放 ; 

准则 8 多 用 户 性 ,要 求 OLAP 在 实际 应 用 中 保证 数据 的 完整 性 和 安全 性 ,并 能 够 进行 
数据 的 并 发 处 理 ; 

准则 9 处 理 非 正规 数据 ,要 求 系统 满足 " 强 聚 合 , 弱 耦 合 ” 的 标准 ; 

准则 10 存储 OLAP 结果 ,要 求 将 决策 分 析 和 数据 源 分 开 ; 

准则 11 提取 丢失 值 ,是 系统 处 理 空 值 的 一 种 方式 ; 

准则 12 处理 丢失 值 ,要 求 OLAP 引擎 忽略 已 经 提取 的 丢失 值 ; 

准则 13 ”弹性 报告 ,要 充分 反映 数据 的 多 维特 征 , 具 有 较 强 的 灵活 性 ; 

准则 14 一致 性 报告 , 即 要 求 OLAP 能 够 为 用 户 提供 时 间 可 预计 的 报告 ; 

准则 15 ”对 物理 层 的 自动 调整 ,其 为 关系 模型 的 标准 s 

准则 16 通用 维 , 即 在 结构 和 操作 能 力 方面 完全 一 致 的 维 ; 

准则 17 无 限 维 与 聚合 层 ,OLAP 维 数 不 应 该 小 于 15, 且 在 任意 路 径 建 立 任意 多 个 聚 
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合 层次 ,给 定 路 径 的 概括 级 数据 也 是 有 限 的 ; 
准则 18 无 限制 跨 维 操作 ,要求 能 够 在 维 之 间 进 行 符号 操作 ,而 不 仅仅 是 对 可 测量 数 
据 的 操作 。 
上 述评 价 标准 仍 存在 较 大 争议 ,例如 第 16 条 除了 时 间 维 ,多 数 维 都 有 自己 的 特性 ; 而 
第 17 条 准则 在 现实 中 很 难 实现 ,否则 会 导致 数据 在 有 限 空间 内 急剧 膨胀 。 
7. 主流 工具 
目前 ,市场 上 主流 的 OLAP 及 前 端 展现 产品 几乎 都 是 在 1993 年 之 前 出 现 的 ,有 的 甚至 
已 有 三 十 多 年 的 历史 , 如 Cognos (PowerCenter), Hyperion (Essbase)、 微 软 (Analysis 
Service) , Business Object 以 及 MicroStrategy 等 几 大 厂商 的 产品 。 
综合 业界 多 方面 观点 ,在 此 将 对 Cognos、Hyperion 和 Business Object 这 三 家 厂商 的 产 
品 在 整体 解决 方案 .OLAP 工具 、 系 统 稳定 性 以 及 集成 等 方面 进行 综合 比较 。 
1) Cognos 8 
Cognos 8 解决 方案 整合 在 一 个 产品 中 ,基于 一 种 Web 架构 上 ,面向 企业 所 有 数据 源 ， 
面向 所 有 用 户 提供 完整 的 信息 处 理 与 展现 功能 ,包括 了 即席 分 析 功 能 ,查询 功能 、 报 表 功 能 、 
仪表 盘 功 能 .事件 管理 功能 以 及 BI 管理 功能 等 。Cognos 8 采用 SOA 架构 ,统一 了 Web 应 
用 架构 和 元 数据 ,能 够 访问 企业 的 所 有 数据 源 ,为 企业 所 有 用 户 提供 了 基于 纯 浏览 器 的 、 全 
面 的 BI 功能 。 
。 前 端 产 品 : 主要 包括 Report Studio,Analysis Studio 以 及 Query Studio 等 。 
* OLAP 工具 : Cognos Powerplay 以 桌面 OLAP 开始 ,一 直 以 轻便 ,快捷 的 操作 闻名 ， 
虽然 Poweplay 早已 演变 成 C/S 结构 的 OLAP 服务 器 ,但 其 轻便 的 特点 还 是 延续 下 
来 ,而 且 提 供 可 以 简洁 部 署 且 具有 交互 性 的 Framework Manager 界面 。 
其 优 缺 点 如 下 : 
* 优点 一 一 易于 集成 .部 署 和 使 用 ,经 过 简单 培训 后 就 能 进行 设计 与 开发 。 
。 缺点 一 一 目前 国内 没有 分 公司 ,只 有 国家 信息 中 心 下 属 的 优 信 佳 公司 独家 代理 ,其 
服务 能 力 有 限 。 
2) Hyperion System 9 
Hyperion System 9 BI 十 实现 BI 标准 化 策略 的 方法 是 用 统一 系统 满足 多 种 多 样 的 报表 
和 分 析 需 求 , 即 企业 内 每 个 部 门 的 每 位 用 户 ,都 能 通过 易于 操作 和 维护 的 单一 系统 按 需 生成 
报表 或 进行 分 析 。 这 样 ,企业 内 的 信息 使 用 者 和 生产 者 就 获得 了 快速 生成 访问 和 共享 重要 
信息 的 便利 ,增强 了 工作 的 灵活 性 ,而 他 们 也 需要 这 些 重要 信息 来 更 快 .更 好 地 做 出 业务 决 
策 。 简 单 而 功能 强大 的 用 户 界 面 使 用 户 在 自行 创建 报表 时 对 IT 支持 和 依赖 降 到 了 最 低 。 
产品 模块 化 的 架构 极 大 地 降低 了 用 户 对 IT 支持 的 需求 ,通过 Hyperion System 9 BI 十 平 
台 , 用 户 只 需 在 服务 器 端 部 署 和 管理 即 可 。 
。 前 端 产 品 : 主要 包括 BI 二 Web Analysis 和 BI 十 Interactive Reporting, 
。 OLAP 工具 : Essbase 作为 老牌 的 OLAP 服务 器 ,是 一 个 比较 复杂 的 产品 。 所 谓 复 
杂 有 两 层 含义 ,一 是 提供 丰富 的 API, 人 允许 充分 定制 开发 ; 二 是 开发 的 难度 较 大 ,不 
易 部 署 。 虽然 其 产品 性 能 很 高 .但 即使 厂商 的 技术 人 员 也 很 难 掌握 其 烦琐 的 细节 
技术 。 
其 优 缺点 如 下 : 


* 优点 一 一 BI 十 Web Analysis 查询 灵活 ,不 需 编程 ,适合 业务 人 员 使 用 。BI 十 
Interactive Reporting 适合 复杂 查询 和 报表 设计 。 结 合 Essbase, 性 能 较 高 。 

。 缺点 一 一 安装 配置 非常 麻烦 ,使 用 BI 十 Interactive Reporting 必须 会 JSP 语言 , 操 
作 性 较 差 , 各 种 图 形 饱 和 度 差 些 。 
3) Business Object( 简 称 BO) 
BO ERAH ,报表 和 OLAP 展现 为 一 身 的 智能 决策 支持 工具 , 它 使 用 独特 的 语义 层 和 
动态 微 立 方 等 技术 表示 数据 库 中 的 多 维 数据 ,具有 较 好 的 查询 和 报表 功能 ,提供 钻 取 等 多 维 
分 析 技 术 ,支持 多 种 数据 库 , 同 时 还 支持 基于 Web 浏览 器 的 查询 .报表 和 分 析 决 策 。 
* 前 端 产 品 : 主要 包括 Web Intelligence 和 Crystal Reporting (水 晶 报 表 ) ,还 有 仪表 
板 和 绩效 管理 工具 。 

。OLAP 工 具 : 虽然 BO 在 不 断 增加 新 的 功能 ,但 严格 地 讲 , 只 能 算是 一 个 前 端 工具 。 
也 许 正 因为 如 此 ,几乎 所 有 的 数据 仓库 解决 方案 都 把 BO 作为 可 选 的 数据 展现 
工具 。 

其 优 缺点 如 下 : 

。 优 点 一 一 用 户 界 面 美观 ,图 形 饱 和 度 高 ,拥有 多 种 新 颖 仪表 板 和 记分 卡 。 

。 缺点 一 一 其 服务 要 求 不 能 出 现 网 络 中 断 ,否则 需要 重启 。 程 序 安装 后 不 能 删除 , 否 

则 会 造成 系统 崩溃 ,仪表 板 之 间 的 集成 度 稍 差 些 。 报 表 和 分 析 工 具 较 复杂 ,用 户 很 
难 自己 设计 所 需 的 报表 ,开发 与 维护 成 本 较 高 。 


4.2 OLAM 


数据 挖掘 与 OLAP 不 同 , 主 要 体现 在 其 分 析 数 据 的 深入 和 分 析 过 程 的 自动 化 ,自动 化 
的 含义 是 指 分 析 过 程 不 需要 用 户 参 与 。 这 是 一 把 双 刃 剑 , 在 实际 中 ,用 户 也 希望 参与 到 挖掘 
中 ,如 仅 对 数据 的 某 一 子 集 进行 挖掘 ,以 及 对 不 同 抽取 、 集 成 水 平 的 数据 进行 挖掘 ,还 有 想 根 
据 自 身 的 需要 动态 选择 挖掘 算法 等 。 可 见 ,OLAP 与 数据 挖掘 各 有 所 长 ,如 果 能 将 二 者 结 
合 衍生 出 一 种 为 数据 挖掘 服务 的 具有 新 型 OLAP 功能 的 应 用 ,将 更 能 适应 实际 的 需求 , 联 
机 分 析 挖掘 (OnLine Analytical Mining,OLAMD) 正 是 这 种 结合 的 产物 。 

1997 年 Han J. W. 提出 了 OLAM 的 概念 ,他 把 OLAM 定义 为 OLAP Mining, 其 含义 
是 将 OLAP 和 数据 挖掘 技术 结合 起 来 ,在 多 维 数据 模型 即 数据 立方 体 的 基础 上 对 外 提供 数 
据 分 析 和 知识 发 现 应 用 , 即 在 OLAP 基础 上 ,对 数据 分 析 算 法 进行 扩充 ,把 数据 挖掘 算法 引 
入 到 多 维 数据 模型 的 数据 环境 中 ,并 把 这 种 思想 在 其 研制 的 DB Miner 系统 中 加 以 实现 。 

Han J. W. 提出 的 OLAM 的 研究 方向 是 数据 分 析 算法 和 数据 挖掘 算法 如 何 与 数据 立 
方 体高 效 地 结合 ,解决 多 维 数据 环境 的 数据 挖掘 。 但 是 对 于 如 何在 系统 体系 结构 上 把 
OLAP 和 数据 挖掘 有 机 地 结合 起 来 , 即 在 异 构 \ 海 量 的 环境 中 快速 响应 用 户 的 数据 分 析 和 
数据 挖掘 请 求 的 问题 没有 做 深入 研究 。 

就 OLAP 和 数据 挖掘 技术 结合 的 系统 集成 度 而 言 ,可 以 分 为 松散 的 集成 和 紧密 的 集成 
两 种 , 即 : 

CD 松散 的 集成 是 指 系统 的 集成 度 不 高 , 即 把 分 立 的 OLAP 系统 和 数据 挖掘 系统 组 合 
在 一 起 ,两 者 没有 统一 的 逻辑 模型 和 任务 /事务 模型 。 
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D 紧密 的 集成 是 指 系统 采用 统一 的 逻辑 模型 .任务 /事务 模型 ,数据 定义 语言 和 数据 
操作 原 语 ,对 于 数据 密集 和 耗 时 较 多 的 操作 系统 进行 统一 的 调度 和 优化 ,从 而 在 系统 内 核 上 
将 OLAP 和 数据 挖掘 有 机 结合 在 一 起 。 

Han J. W. 提出 的 OLAM 以 及 其 实现 的 DB Miner 系统 是 一 种 松散 的 集成 。 其 实 , 早 
在 OLAM 概念 之 前 ,在 数据 挖掘 领域 已 有 将 OLAP 与 数据 挖掘 结合 起 来 提供 更 优质 的 数 
据 分 析 和 决策 支持 工具 的 思路 。 有 许多 OLAP 产品 在 功能 上 添加 了 数据 挖掘 能 力 ,在 具体 
实现 方式 上 可 以 分 为 两 类 : 

CD ÆRA OLAP 产品 基础 上 ,通过 系统 的 改造 增加 数据 挖掘 功能 ,如 Business Object 
产品 中 的 决策 树 分 析 、DB Miner 系统 中 的 数据 挖掘 算法 工具 箱 。 在 这 种 实现 方式 中 OLAP 
与 数据 挖掘 的 结合 松散 ,拼装 的 痕迹 明显 ,对 系统 整体 体系 结构 的 考虑 较 少 ,不 能 同时 充分 
发 挥 两 者 的 优势 。 

(2) 把 数据 挖掘 算法 集成 在 系统 的 底层 功能 中 ,OLAP 与 数据 挖掘 结合 紧密 ,Microsoft 
公司 的 SQL Server 2000 中 的 关联 分 析 方 法 在 数据 库 端 的 集成 就 是 紧密 集成 这 种 方式 的 初 
步 尝试 。 

推动 OLAM 发 展 的 原始 驱动 力主 要 体现 在 如 下 几 个 方面 : 

(1) 分 析 需 要 的 数据 是 一 些 经 过 净化 、 集 成 处 理 的 数据 ,通常 这 种 处 理 过 程 也 是 昂贵 
的 。 而 数据 仓库 作为 OLAP 的 数据 源 ,存储 的 就 是 这 样 的 数据 。 它 能 为 OLAP 提供 数据 ， 
当然 也 可 以 为 数据 挖掘 提供 数据 。 

(2) 数据 仓库 是 一 项 如 新 的 技术 ,很 多 人 在 研究 它 , 围 绕 着 它 有 许多 工具 或 是 体系 结 
构 。 而 数据 挖掘 作为 数据 分 析 工 具 的 一 种 ,不 是 孤立 的 ,必然 与 其 他 工具 发 生 联系 。 因 此 ， 
考虑 到 如 何 最 大 限度 地 利用 这 些 现成 的 工具 ,也 是 OLAM 发 展 之 初 所 关心 的 问题 。 

(3) 成 功 的 数据 挖掘 需要 对 数据 进行 钻探 性 分 析 。 例 如 ,挖掘 所 需 的 数据 可 能 只 是 一 
部 分 一定 范围 的 数据 。 因 此 ,对 多 维 数据 模型 的 切片 . 切 块 和 下 钻 等 操作 ,同样 可 以 应 用 于 
数据 挖掘 中 。 换 言 之 ,可 以 将 数据 挖掘 建立 在 多 维 模型 (或 称 超 立 方 体 ) 基 础 上 。 

(4) 用 户 的 参与 对 数据 挖掘 的 重要 性 。 动 态 地 提出 挖掘 要 求 选择 挖掘 算法 ,因此 可 以 
将 OLAP 的 C/S 结构 应 用 于 数据 挖掘 。 


4.2.1 体系 结构 


OLAM 的 挖掘 分 析 是 建立 在 数据 仓库 基础 上 的 ,数据 挖掘 所 需要 的 数据 在 挖掘 进行 
之 前 就 已 经 过 预 处 理 并 存放 在 数据 仓库 中 ,这 在 很 大 程度 上 提高 了 数据 挖掘 的 响应 
速度 。 

此 外 ,具体 的 数据 挖掘 算法 与 数据 源 之 间 的 关系 完全 透明 。 用 户 在 进行 挖掘 操作 时 , 首 
先 根据 算法 要 求 从 数据 仓库 中 提取 相关 数据 ,然后 进行 运算 ,挖掘 产生 的 结果 即 学 习 得 到 的 
知识 , 则 写 回 到 数据 仓库 的 相应 库 表 中 ,以 立方 体 的 形式 展现 给 用 户 , 如 图 4.2 所 示 。 

这 里 有 两 个 问题 需要 详细 讨论 , 即 : 

一 是 算法 选择 问题 。 如 前 所 述 .OLAM 发 展 的 源 动力 之 一 是 给 予 用 户 一 定 算法 选择 灵 
活性 。 因 为 对 于 同一 个 功能 一 般 可 以 采用 多 种 算法 实现 ,例如 分 类 可 以 是 基于 统计 学 ,或 基 
于 机 器 学 习 或 基于 神经 网 络 。 不 同 的 算法 针对 不 同 的 问题 空间 有 不 同 的 性 能 ,如 何 选择 最 
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高 性 能 的 算法 ,是 用 户 需 要 考虑 的 问题 。 另 一 方面 ,OLAM 的 最 终 用 户 往 往 对 具体 算法 并 
不 了 解 , 因 此 提供 太 大 的 灵活 度 反 而 让 用 户 束手无策 。 实 际 的 做 法 是 针对 OLAM 具体 的 
问题 空间 ,在 充分 实验 的 基础 上 , 仅 提 供 有 限 的 几 种 算法 参与 知识 发 现 过 程 , 并 将 结果 反馈 
给 用 户 ,让 用 户 选择 最 贴近 实际 的 结果 。 这 在 一 定 程 度 上 避免 了 用 户 与 挖掘 算法 的 直接 
接触 。 

二 是 源 数据 钻探 问题 。 我 们 知道 ,传统 的 数据 挖掘 建立 在 各 种 数据 源 之 上 ,在 挖掘 之 
前 ,往往 需要 花费 大 量 的 时 间 进 行 数据 预 处 理 , 这 大 大 降低 了 系统 的 响应 性 能 。 而 OLAM 
建立 在 数据 仓库 之 上 ,挖掘 所 需 的 源 数据 事先 已 存放 在 数据 仓库 中 。 然 而 ,有 些 挖掘 算法 往 
往 需要 底层 的 详细 数据 ,如 分 析 电 信 客 户 行为 时 需要 客户 的 通话 详 单 ,这 些 数 据 一 般 数据 量 
巨大 且 更 新 频繁 ,不 可 能 将 其 全 部 复制 到 数据 仓库 中 。 一 是 因为 系统 容量 有 限 ,二 是 由 于 
系统 不 堪 频 繁 数据 更 新 的 重负 。 实 际 上 ,还 是 将 这 样 的 数据 存放 在 各 个 事务 数据 库 中 ， 
如 前 所 述 数据 仓库 在 物理 上 也 可 能 就 是 原来 的 事务 数据 库 。 因 此 ,这 些 在 实际 中 根据 需 
要 存储 分 析 或 挖掘 所 需 数 据 的 事务 数据 库 , 在 逻辑 上 构成 了 一 个 虚拟 数据 仓库 ,如 图 4. 3 
所 示 。 


图 4.2 OLAM 结构 演变 示意 图 


图 4.3 虚拟 数据 仓库 示意 图 


OLAM 的 挖掘 分 析 是 建立 在 超 立 方 体 基 础 上 ,而 且 在 实际 应 用 中 ,尽管 OLAM 的 多 维 
计算 可 能 需要 更 多 的 维度 和 更 强大 的 访问 工具 ,但 是 OLAP 的 立方 体 和 OLAM 的 立方 体 
之 间 并 没有 本 质 的 区 别 。 
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4.2.2 特点 


建立 在 庞大 数据 库 或 数据 仓库 基础 上 的 OLAM 在 实现 过 程 中 面临 的 最 大 挑战 是 执行 
效率 的 提高 和 对 用 户 请 求 的 快速 响应 。 目 前 还 没有 OLAM 的 产品 出 现 , 对 OLAM 应 具备 
的 特点 也 众说 纷 颖 。 但 是 ,针对 OLAM 的 基本 结构 以 下 几 点 是 必要 的 。 
(1) OLAM 建立 在 多 维 数据 库 和 OLAP 的 基础 上 ,因此 应 能 方便 地 对 任何 数据 或 不 同 
抽象 级 别 的 数据 进行 挖掘 。 这 是 借助 OLAP 对 超 立方 体 进行 切片 、 切 块 和 下 钻 等 操作 实现 
的 。 另 外 ,如 果 需 要 OLAM 还 可 以 直接 访问 存储 在 底层 数据 库 中 的 数据 。 总 之 ,借助 于 
OLAP 的 支持 ,OLAM 能 对 任何 数据 进行 挖掘 。 
(2) 用 户 对 挖掘 算法 具有 动态 选择 的 权力 ,在 传统 的 关系 数据 库 中 ,对 同一 个 主题 , 任 
何不 同 的 查询 过 程 所 得 到 的 结果 是 相同 的 。 而 数据 挖掘 则 不 然 , 对 同一 个 问题 ,运用 不 同 的 
挖掘 算法 ,得 出 的 结果 可 能 大 相 径 庭 。 因 此 有 必要 给 予 用 户 以 动态 选择 挖掘 算法 的 权力 。 
此 外 ,有 些 用 户 针对 自己 的 问题 ,可 能 有 一 套 独特 的 挖掘 算法 ,并 希望 嵌入 到 OLAM 中 。 
因此 ,OLAM 应 该 具有 通用 接口 ,便于 与 其 他 工具 或 算法 相 衔接 。 
(3) OLAM 建立 在 多 维 数据 视图 的 基础 上 ,因此 基于 超 立 方 体 的 挖掘 算法 是 其 核心 。 
超 立 方 体 计算 与 传统 挖掘 算法 的 结合 使 得 数据 挖掘 有 了 极 大 的 灵活 性 和 交互 性 。 这 里 所 说 
的 超 立 方 体 计算 一 般 是 指 切 片 、 切 块 .下 钼 和 旋转 等 操作 。 而 传统 挖掘 算法 是 指 关 联 、 分 类 、 
聚 类 和 预测 等 挖掘 算法 。 根 据 超 立 方 体 计算 和 数据 挖掘 所 进行 的 次 序 的 不 同 组 合 可 以 有 以 
下 几 种 模式 , 即 : 
。 先进 行 立方 体 计算 ,后 进行 数据 挖掘 。 在 进行 数据 挖掘 前 , 先 对 多 维 数据 进行 一 定 
的 立方 体 计算 ,以 选择 合适 的 数据 范围 和 恰当 的 抽象 级 别 。 

* 先 对 多 维 数据 进行 数据 挖掘 ,然后 再 利用 立方 体 计 算 对 挖掘 结果 做 进一步 的 深入 
分 析 。 

* 立方 体 计算 与 数据 挖掘 同时 进行 ,在 挖掘 的 过 程 中 可 以 根据 需要 对 数据 视图 进行 相 
应 的 多 维 操作 ,这 意味 着 同一 个 挖掘 算法 可 以 应 用 于 多 维 数据 视图 的 不 同 部 分 。 

(4) 回溯 和 书签 功能 。OLAM 的 挖掘 过 程 是 对 多 维 数据 视图 的 一 个 不 断 深 入 的 过 程 。 
实际 中 ,用 户 很 有 可 能 因为 算法 的 复杂 而 在 超 立方 体 中 “迷失 方向 "。 因 此 OLAM 的 挖掘 
算法 应 能 给 用 户 提 供 退 回 上 次 操作 初始 状态 的 回溯 及 书签 功能 。 

(5) 55 OLAP 类 似 ,OLAM 也 采用 C/S 体系 结构 ,这 使 得 其 具有 和 较 高 的 执行 效率 和 较 
快 的 响应 速度 。 但 由 于 一 般 挖 掘 算法 都 复杂 且 耗 时 ,因此 在 执行 效率 和 挖掘 准确 性 两 者 之 
间 需 要 权衡 。 一 般 情况 下 ,OLAM 与 用 户 频 繁 且 高 速 地 交互 ,应 选择 合适 的 挖掘 算法 和 数 
据 空 间 ,一 旦 这 两 点 确定 了 ,在 特定 数据 空间 上 再 执行 用 户 选 定 的 复杂 的 挖掘 算法 ,以 保证 
最 终结 果 的 正确 性 。 

此 外 ,OLAM 还 应 具有 灵活 的 可 视 化 工具 和 和 良好 的 扩展 性 。OLAM 的 结构 复杂 ,在 实 
际 应 用 中 要 与 多 个 模块 或 工具 交互 。 例 如 ,OLAM 可 能 与 一 个 统计 软件 包 相 结合 ,或 者 系 
统 本 身 功能 扩展 使 之 适合 于 地 理 数据 、 文 本 数据 或 者 商业 数据 的 挖掘 。 因 此 ,OLAM 接口 
的 标准 化 和 通用 性 则 显得 尤为 重要 。OLAM 是 OLAP 与 数据 挖掘 相 结合 的 产物 , 它 兼 具 
OLAP 多 维 分 析 的 在 线性 .灵活 性 和 数据 挖掘 对 数据 处 理 的 深入 性 ,是 具有 数据 挖掘 功能 


的 数据 仓库 ,也 是 数据 仓库 应 用 工具 未 来 发 展 的 方向 。 


4.2.3 基于 Web 的 OLAM 


基于 C/S RWA OLAP OLAM 的 一 个 重要 特点 是 与 用 户 的 交互 性 。WWW 也 是 基 
于 这 样 的 模式 。 此 外 ,由 于 用 户 前 端 展示 工具 的 一 致 性 (各 种 浏览 器 ) ,使 其 具有 更 大 的 开放 
性 。 基 于 Web 的 OLAM Æ Web 4£7R 5; OLAP OLAM 的 结合 ,也 是 Web 数据 库 下 一 步 发 
展 的 目标 。 

可 以 把 基于 Web 的 OLAM 看 作 是 能 提供 多 维 分 析 和 挖掘 功能 的 Web 数据 库 应 用 。 
OLAM 以 应 用 程序 服务 器 的 形式 安装 于 网 络 ,浏览 器 端的 用 户 可 以 通过 Web 服务 器 访问 
OLAM 服务 器 。 

如 图 4.4 所 示 , WWW 服务 器 是 实现 OLAM 功能 的 中 枢 , 其 执行 流程 的 大 概 步 又 
如 下 : 

CD 浏览 器 端 用 户 通过 HTML 文件 中 的 表单 提出 数据 分 析 挖 掘 请 求 并 传递 给 WWW 
服务 器 。 

(2) WWW 服务 器 端 调用 相应 的 应 用 程序 如 CGI, ISAPI, NSAPI 等 ,并 根据 需要 激活 
OLAM 服务 程序 。 

(3) OLAM 服务 器 引擎 将 立方 体操 作 转 换 为 SQL 请 求 , 并 交付 DBMS/DWMS 执行 。 

(4) WWW 服务 器 将 结果 反馈 给 用 户 。 
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图 4.4 基于 Web 的 OLAM 结构 框图 


实现 交互 式 的 数据 库 应 用 系统 ,在 服务 器 端 一 般 是 执行 相应 的 CGI 或 ISAPI 程序 ,但 
开发 CGI 和 ISAPI 复 杂 而 低 效 ,并 且 对 程序 员 要 求 也 较 高 。 目 前 较为 先进 的 是 采用 ASP 
(Active Server Pages) 技 术 。 另 外 ,考虑 到 最 大 限度 地 减少 通信 量 及 增加 灵活 性 ,在 浏览 器 
端 引入 了 Java Applets, ActiveX 或 VBScript 等 组 件 。 

目前 ,基于 Web 的 OLAM 应 用 还 处 于 起 步 阶段 ,这 一 领域 还 有 很 多 问题 有 待 研 究 。 
例如 : 

A) Web 数据 以 多 种 形式 存在 ,一 般 是 超 文 本 文件 ,而 且 结构 性 较 差 。 迄 今 为 止 ， 
Internet 的 信息 描述 语言 已 由 最 初 的 SGML HTML 发 展 到 现在 的 XML 和 DHTML。 但 
是 ,由 于 浏览 器 的 不 同 , 很 难 在 各 种 语言 的 解释 执行 方式 上 取得 一 致 。 因 此 ,数据 描述 语言 
的 标准 化 显得 尤为 重要 。 
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(2) 基于 Web 的 OLAM 前 端 展 示 工 具 。 浏 览 器 虽然 具有 界面 统一 、 易 于 操作 等 特点 ， 
但 仅 限于 提供 交互 式 操作 ,很 难 构造 复杂 应 用 。 因 此 ,能 否 开发 一 种 接近 人 类 自然 语言 的 
Web 查询 语言 ,成 为 研究 热点 之 一 。 

(3) 系统 执行 效率 和 响应 速度 是 用 户 最 关心 的 问题 ,也 是 基于 Web 的 OLAM 在 实际 
中 遇 到 的 最 大 挑战 。 影 响 这 一 性 能 的 主要 是 两 大 因素 ,一 是 物理 网 络 的 传输 速度 ; 二 是 服 
务 器 端的 分 析 挖 掘 算法 的 执行 效率 。 随 着 网 络 技术 的 提高 ,前 者 已 不 足 为 虑 ,而 后 者 因为 大 
部 分 多 维 分 析 算 法 ,如 对 超 立 方 体 的 切片 . 切 块 .旋转 等 操作 以 及 各 种 数据 挖掘 算法 都 是 复 
杂 而 耗 时 的 ,因此 对 OLAM 服务 器 提出 了 很 高 .有 时 甚至 是 很 难 满足 的 要 求 。 

此 外 ,还 有 一 些 非 技 术 因 素 也 是 基于 Web 的 OLAM 在 今后 的 发 展 中 需要 认真 解决 的 
问题 ,如 信息 安全 性 、 保 密 性 以 及 版 权 和 收费 问题 等 。 

除了 OLAP 和 OLAM 之 外 ,数据 挖掘 也 是 数据 仓库 的 一 个 重要 应 用 。 下 面 将 详细 介 
绍 数 据 挖掘 。 
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第 5 章 数据 挖掘 基础 


20 世纪 末 , 随 着 Internet 的 普及 ,全 球 信 息 量 以 惊人 的 速度 急剧 增长 , 据 估计 每 18 个 
月 就 增加 一 倍 。 许 多 组 织 机 构 的 YT 系统 都 存储 了 大 量 的 数据 。 目 前 的 数据 ( 仓 ) 库 系统 虽 
然 可 以 高 效 地 实现 数据 的 录入 查询 和 统计 等 功能 ,但 却 无 法 发 现 海量 数据 中 隐藏 的 关系 和 
规则 ,无 法 预测 未 来 的 发 展 趋势 。 为 了 充分 利用 资源 ,从 海量 数据 中 发 现 隐 藏 的 知识 和 规 
律 ,数据 挖掘 应 运 而 生 并 显示 出 极其 强大 的 生命 力 。 

数据 挖掘 作为 一 门 新 兴 的 交叉 学 科 , 涉 及 数据 库 ,数据 仓库 ,统计 学 、 机 器 学 习 、 可 视 化 、 
信息 检索 和 高 性 能 计算 等 诸多 领域 ,其 他 相关 的 领域 还 包括 人 工 智 能 (Artificial 
Intelligence. AD 模式 识别 、 空 间 数 据 分 析 、` 图 像 处 理 、 概 率 论 .图 论 和 逻辑 推理 等 。 


5.1 概述 


数据 挖掘 的 提出 是 在 20 世纪 80 年 代 , 它 是 一 个 新 兴 的 、 面 向 商业 应 用 的 AI 研究 领域 。 

1989 年 8 月 ,在 美国 底特律 召开 的 第 11 届 国 际 人 工 智能 联合 会 议 的 专题 讨论 会 上 首 
次 出 现 数据 库 中 的 知识 发 现 (Knowledge Discovery in Database. KDD) 这 一 术语 。 随 后 ,在 
1991 4£,1993 年 和 1994 年 都 举行 了 KDD 专题 讨论 会 ,汇集 来 自 各 个 领域 的 研究 人 员 和 应 
用 开发 者 ,集中 讨论 数理 统计 海量 数据 分 析 算 法 .知识 表示 和 运用 等 问题 。 最 初 ,数据 挖掘 
是 作为 KDD 中 利用 算法 处 理 数 据 的 一 个 步骤 ,后 来 逐渐 演变 成 KDD 的 同义词 。 

KDD 常常 被 称 为 数据 挖掘 ,实际 上 两 者 是 有 区 别 的 。 一 般 将 KDD 中 进行 知识 学 习 的 
阶段 称 为 数据 挖掘 。 数 据 挖掘 是 KDD 中 一 个 非常 重要 的 处 理 步骤 。 但 是 ,人 们 往往 不 加 
区 别 地 使 用 。 

数据 挖掘 是 近年 来 出 现 的 客户 关系 管理 .商业 智能 等 热点 领域 的 核心 技术 。 


5.1.1 定义 


从 技术 角度 而 言 ,数据 挖掘 是 从 大 量 的 .不 完全 的 \ 有 噪声 的 、 模 糊 的 .随机 的 实际 数 
据 中 ,提取 隐 含 在 其 中 、 人 们 事先 不 知道 但 又 是 潜在 有 用 的 信息 和 知识 的 过 程 。 这 一 定 
义 包括 多 层 含义 , 即 数 据 源 必须 是 真实 的 、 海 量 的 有 噪声 的 ,发 现 的 知识 应 是 用 户 感 兴趣 
的 ,并 且 是 可 接受 、 可 理解 和 可 运用 的 ,并 不 要 求 是 放 之 四 海 而 丝 准 的 知识 ,可 以 仅 支 持 特定 
的 问题 。 

从 商业 角度 而 言 ,数据 挖掘 是 一 种 新 的 商业 信息 处 理 技术 ,其 主要 特点 是 对 数据 库 中 的 
大 量 业 务 数据 进行 抽取 、 转 换 、 分 析 和 其 他 模型 化 处 理 , 从 中 提取 辅助 商业 决策 的 关键 性 信 
息 和 知识 。 

简 言 之 ,数据 挖掘 本 质 上 是 一 种 深层 次 的 数据 分 析 方 法 。 因 此 ,数据 挖掘 可 以 描述 为 按 
企业 既定 业务 目标 ,对 大 量 的 数据 进行 探索 和 分 析 ,揭示 隐藏 的 ,未知 的 或 验证 已 知 的 规律 


性 ,并 进一步 将 其 模型 化 的 有 效 方法 。 

数据 挖掘 所 发 现 的 最 常见 的 知识 包括 : 

(1) 广义 (Generalization) 知 识 

广义 知识 是 类 别 特征 的 概括 性 描述 知识 。 根 据 数据 的 微观 特性 发 现 其 表征 的 、 带 有 普 
遍 性 的 、 较 高 层次 概念 的 ,中 观 和 宏观 的 知识 ,反映 同类 事物 的 共同 性 质 , 它 是 对 数据 的 概 
括 、 精 炼 和 抽象 。 

广义 知识 的 发 现 方法 和 实现 技术 有 多 种 ,如 数据 立方 体 、 面 向 属性 的 归 约 等 。 其 中 , 数 
据 立 方 体 的 基本 思想 是 实现 某 些 常 用 的 代价 较 高 的 聚集 函数 的 计算 ,如 计数 、 求 和 ,平均 值 
和 最 大 值 等 ,并 将 其 存储 在 多 维 数据 库 中 。 因 为 很 多 聚集 函数 都 需要 重复 计算 ,在 多 维 数据 
立方 体 中 存放 预先 计算 好 的 结果 将 保证 快速 的 响应 ,并 灵活 地 提供 不 同 角度 和 抽象 层次 上 
的 数据 视图 ; 另 一 种 广义 知识 的 发 现 方法 是 加 拿 大 Simon Fraser 大 学 提出 的 面向 属性 的 归 
约 方法 。 该 方法 以 类 SQL 请 言 表示 数据 挖掘 查询 ,收集 数据 库 中 的 相关 数据 集 ,然后 应 用 
一 系列 数据 分 析 技 术 ,包括 属 性 删除 概念 树 提升 、 属 性 阔 值 控制 .计数 及 其 他 聚集 函数 计 

(2) 关联 (Association) 知 识 

关联 知识 是 反映 一 个 事件 和 其 他 事件 之 间 依 赖 或 关联 的 知识 。 如 果 两 项 或 多 项 属性 之 
间 存 在 关联 , 则 其 中 的 一 项 就 可 以 依据 其 他 属性 值 进行 预测 。 最 著名 的 关联 分 析 算 法 是 
R. Agrawal 提出 的 Apriori。 关 联 分 析 的 实现 步骤 是 第 一 步 通过 和 欠 代 识别 所 有 的 频繁 项 集 ， 
要 求 频繁 项 集 的 支持 率 不 低 于 用 户 设 定 的 阀 值 ; 第 二 步 从 频繁 项 集中 构造 可 信 度 不 低 于 用 
户 设 定 的 阔 值 的 规则 。 该 算法 的 核心 是 识别 或 发 现 所 有 频繁 项 集 ,也 是 计算 量 最 大 的 部 分 。 

(3) 分 类 (Classification& .Clustering) 知 识 

分 类 知识 是 反映 同类 事物 共同 性 质 的 特征 知识 和 不 同事 物 之 间 差 异性 的 特征 知识 。 最 
典型 的 分 类 方法 是 基于 决策 树 的 分 类 , 它 是 从 实例 集中 构造 决策 树 , 是 一 种 有 监督 和 指导 的 
学 习 方法 。 该 方法 先 根据 训练 集 ( 又 称 为 窗口 ) 形 成 决策 树 。 如 果 该 决策 树 不 能 对 所 有 样本 
给 出 正确 的 分 类 , 则 选择 一 些 例子 加 入 到 窗口 中 ,重复 该 过 程 直到 形成 正确 的 决策 集 , 即 一 
棵 决策 树 ,其 叶 结 点 是 类 名 ,中 间 结 点 是 带 有 分 枝 的 属性 ,分 枝 对 应 该 属性 的 某 一 可 能 值 。 
最 经 典 的 是 ID3 算法 ,采用 自 项 向 下 不 回溯 策略 ,保证 找到 一 棵 简单 的 树 。C4.5 和 Co. 0 等 
算法 都 是 ID3 的 扩展 ,将 分 类 从 类 别 属性 扩展 到 数值 型 属性 。 

此 外 ,还 有 统计 、 粗 糙 集 (Rough Set) 和 神经 网 络 等 分 类 方法 。 

(4) FW (Prediction) 知识 

预测 知识 根据 时 间 序 列 , 由 历史 的 和 当前 的 数据 预测 未 来 ,也 可 以 认为 是 以 时 间 为 关键 
属性 的 关联 知识 。 

目前 ,时 间 序 列 预测 的 主要 方法 包括 统计 、 神 经 网 络 和 机 器 学 习 等 。1968 年 Box 和 
Jenkins 提出 了 一 套 比 较 完善 的 时 间 序 列 建 模 理 论 和 分 析 方 法 ,通过 建立 随机 模型 ,如 自 回 
归 模 型 、 自 回归 滑动 平均 模型 . 求 和 自 回 归 滑 动 平均 模型 和 季节 调整 模型 等 ,进行 时 间 序 列 
预测 。 由 于 大 量 的 时 间 序 列 是 非 平稳 的 ,其 特征 参数 和 数据 分 布 随 着 时 间 的 推移 而 发 生变 
化 。 因 此 ,仅仅 通过 对 某 段 历史 数据 的 训练 ,建立 单一 的 预测 模型 ,还 无 法 准确 地 预测 。 为 
此 ,人 们 提出 了 基于 统计 学 和 精确 性 的 再 训练 方法 , 当 发 现 现 有 预测 模型 不 再 适用 于 当前 数 
据 时 ,对 模型 重新 训练 ,获得 新 的 参数 ,建立 新 的 模型 。 也 有 许多 系统 借助 并 行 算法 实现 时 


间 序 列 预测 。 


(5) 偏差 (Deviation) 型 知识 


偏差 型 知识 是 对 差异 和 极端 特例 的 描述 ,揭示 事物 偏离 常规 的 异常 现象 ,如 标准 类 外 的 


特例 ,数据 聚 类 外 的 离 群 值 (Outlier) 等 。 


上 述 知 识 都 可 以 在 不 同 的 概念 层次 上 被 发 现 ,并 随 着 概念 层次 的 提升 ,从 微观 到 中 观 再 


到 宏观 ,以 满足 不 同 用 户 不 同 层次 的 决策 需要 。 
数据 挖掘 的 演化 过 程 如 表 5. 1 所 示 。 


表 5.1 数据 挖掘 的 演化 过 程 


进化 阶段 商业 问题 支持 技术 产品 厂家 产品 特点 
数据 搜集 (20 世 | “过 去 五 年 中 总 收入 | IBM.CDC 提供 历史 的、 前 
纪 60 年 代 ) RAT Nd 态 的 数据 
数据 访问 (20 世 | LR TE A DOURIHIBUECRDBMS), Oracle, Sybase, IBM; 提供 记录 级 的 历 
纪 80 年 代 ) = 结构 化 查询 语言 (SQL)| Microsoft 史 .动态 的 数据 
额 是 多 少 ?” 
“在 新 英格兰 的 分 部 
数据 仓库 .决策 支 | 去 年 三 月 份 的 销售 | 联机 分 析 处 理 (OLAP)、| Pilot, Comshare, Arbor, | 在 各 种 层次 上 所 
持 (20 世纪 90 年 | 额 是 多 少 ? 波士顿 | 多维 数据 库 .数据 |Cognos 和 Microstrategy| 供 回 测 、 动 态 的 
代 ) 据 此 可 得 出 什么 | 仓库 " 数据 
结论 ?” 
“下 个 月 波士顿 的 销 | 数据 挖掘 算 法 .多 处 | 
数据 挖 所 售 趋势 如何 ? 为 | 理 器 计算 机 ,海量 数 | 提供 预测 性 信息 
什么 ?” 据 仓库 


在 了 解数 据 挖掘 演化 过 程 的 基础 上 ,以 下 两 个 问题 值得 探讨 。 

(1) 数据 挖掘 与 统计 学 的 关系 

近年 来 ,人 们 逐渐 发 现 数据 挖掘 的 许多 工作 都 是 利用 统计 方法 实现 的 。 一 些 人 (尤其 是 
统计 学 家 ) 甚 至 认为 数据 挖掘 是 统计 学 的 一 个 分 支 ,当然 大 多 数 人 (包括 绝 大 多 数 数据 挖掘 
研究 人 员 ) 并 不 这 么 认为 。 但 是 ,统计 学 和 数据 挖掘 的 目标 非常 相似 ,而 且 数 据 挖掘 的 许多 
算法 确实 源 于 数理 统计 ,统计 学 对 数据 挖掘 发 展 的 贡献 功 不 可 没 。 

(2) 数据 挖掘 与 传统 数据 分 析 方法 的 区 别 

数据 挖掘 的 本 质 是 一 种 深层 次 的 数据 分 析 方 法 。 数 据 分 析 已 有 多 年 的 历史 ,只 不 过 过 
去 数据 收集 和 分 析 的 一 般 目 的 是 用 于 科学 研究 。 另 外 ,由 于 当时 计算 能 力 的 限制 ,很 难 实现 
对 海量 数据 进行 非常 复杂 的 分 析 。 现 在 ,由 于 各 行业 业务 自动 化 的 实现 ,商业 领域 产生 了 大 
量 的 业务 数据 ,这 些 数据 并 不 是 为 了 分 析 的 目的 而 收集 的 ,而 是 在 商业 活动 过 程 中 由 于 业务 
需要 而 自然 产生 的 。 不 再 是 单纯 为 了 研究 ,更 主要 的 是 为 商业 决策 提供 真正 有 价值 的 信息 
和 知识 ,进而 使 利润 最 大 化 。 所 有 企业 面临 的 一 个 共同 问题 是 企业 数据 量 非常 大 ,而 其 中 真 
正 有 价值 的 信息 和 知识 却 很 少 ,因此 需要 对 大 量 数据 进行 深入 分 析 ,获得 有 利于 提高 核心 竞 
争 力 的 信息 和 知识 ,如 同 从 矿石 中 淘金 一 样 ,数据 挖掘 也 因此 而 得 名 。 

数据 挖掘 与 传统 数据 分 析 方 法 的 区 别 主 要 在 于 : 

CD 数据 挖掘 的 数据 源 与 以 前 相 比 有 显著 的 改变 。 首 先 ,数据 挖掘 出 现 的 背景 是 “数据 
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爆炸 而 知识 贫乏 ”, 它 需要 处 理 的 数据 量 达 到 了 “ 太 ”( 万 亿 ) 级 以 上 , 比 传统 数据 分 析 处 理 的 
数据 量 超 出 几 个 乃至 十 几 个 数量 级 。 对 于 如 此 大 规模 的 数据 ,传统 的 数据 分 析 方 法 可 能 根 
本 无 法 处 理 , 即 使 能 够 处 理 ,效率 也 是 一 个 瓶颈 。 piii QUA MP o tm 
并 加 以 改进 。 其 次 ,传统 数据 分 析 方 法 的 数据 源 一 般 都 是 清洁 的 、 结 构 化 的 ,数据 挖掘 则 是 
从 不 完全 的 \ 有 了 噪声 的 、 模 糊 的 数据 中 发 现 知识 。 Ra HERREN DEN 
的 重要 组 成 部 分 。 数 据 挖掘 不 仅 可 以 处 理 结构 化 的 数据 ,还 可 以 处 理 半 结构 化 或 非 结构 化 
的 数据 。 事 实 上 , 非 结构 化 的 文本 挖掘 乃至 半 结 构 化 的 Web 挖掘 正 是 数据 挖掘 的 研究 方向 
这 

(2). 传统 数据 分 析 方 法 一 般 都 是 先 给 出 一 个 假设 然后 验证 , 即 在 一 定 意义 上 是 假设 驱 
动 的 ; 与 之 相反 ,数据 挖掘 在 一 定 意义 上 是 发 现 驱动 的 ,模式 都 是 通过 大 量 的 探索 从 海量 数 
据 中 自动 获取 。 这 一 点 是 数据 挖掘 区 别 于 传统 数据 分 析 方 法 以 及 OLAP 技术 的 本 质 特 点 。 
数据 挖掘 是 在 事先 没有 假定 想法 与 问题 的 情况 下 ,在 大 量 数据 中 发 现 隐 含 的 模式 。 所 得 到 
的 信息 和 知识 具有 预先 未 知 的 特征 , 即 数据 挖掘 要 发 现 那些 不 能 靠 直 觉 发现 的 甚至 是 违背 
直觉 的 信息 或 知识 , 越 是 出 乎 意料 ,可 能 越 有 价值 。 在 商业 应 用 中 最 典型 的 例子 就 是 一 家 连 
锁 店 通过 数据 挖掘 发 现 小 孩 尿 布 和 啤酒 之 间 有 着 惊人 的 联系 。 


5.1.2 功能 


概括 地 ,数据 挖掘 的 主要 功能 如 下 : 

1. 概念 /类 别 描述 (Concept/Class Description) 

概念 /类 别 描述 是 对 数据 集 做 一 个 简洁 的 总 体 性 描述 并 /或 描述 其 与 某 一 对 照 数 据 集 的 
差别 。 

例 5.1: 收集 移动 业务 每 月 ARPU(Average Revenue Per User, 每 户 平均 收入 ) 超 出 
300 元 的 客户 资料 ,然后 利用 数据 挖掘 可 作出 总 体 描述 如 下 : 年 龄 35 一 50 岁 、 工 作 稳 定 、 月 
收入 10 000 元 以 上 、 拥 有 良好 信用 度 。 

例 5.2: 对 比 移动 业务 每 月 ARPU 超出 200 元 和 低 于 30 元 的 两 个 客户 群 ,然后 利用 数 
据 挖掘 可 做 出 描述 如 下 : 每 月 ARPU 超出 200 元 的 客户 80 站 以 上 年 龄 在 35 一 50 岁 ,月 收 
入 6000 元 以 上 ; 而 每 月 ARPU F 30 元 的 客户 60% 以 上 要 么 年 龄 过 大 要 么 年 龄 过 小 ,月 
收入 2000 元 以 下 。 

2. 关联 分 析 (Association Analysis) 

从 一 个 数据 集中 发 现 关 联 规则 ,该 规则 显示 给 定数 据 集中 经 常 一 起 出 现 的 属性 一 值 元 
组 。 例 如 : 关联 规则 XY 所 表达 的 含义 是 满足 X 的 元 组 很 可 能 满足 Y。 关 联 分 析 在 交易 
数据 分 析 、 支 持 定 向 市 场 、 商 品目 录 设 计 和 其 他 业务 决策 等 方面 有 着 广泛 的 应 用 。 

3. 分 类 和 预测 (Classification and Prediction) 

分 类 是 指 通 过 分 析 一 个 类 别 已 知 的 数据 集 的 特征 建立 分 类 模型 ,该 模型 可 预测 类 别 未 
知 对 象 的 类 别 。 分 类 模型 可 以 表现 为 多 种 形式 ,如 分 类 规则 (IF-THEN) ,决策 树 或 数学 公 
式 乃 至 神经 网 络 。 预 测 与 分 类 类 似 , 只 不 过 预测 的 既 可 以 是 类 别 , 也 可 以 是 连续 的 数值 。 

4. 聚 类 分 析 (Clustering Analysis) 

聚 类 分 析 又 称 为 “ 同 质 分 组 ?或 “无 监督 的 分 类 ”, 即 把 一 组 数据 划分 为 不 同 的 “ 簇 ”, 每 


一 簇 中 的 数据 相似 而 不 同 簇 间 的 数据 则 相 异 ,可 以 通过 距离 函数 等 度量 相似 性 。 聚 类 应 保 
证 不 同类 间 数 据 的 相似 性 尽 可 能 小 ,而 类 内 数据 的 相似 性 尽 可 能 大 。 

5. 时 间 序 列 分 析 (Time Series Analysis) 

时 间 序 列 分 析 即 预测 ,是 指 通 过 对 大 量 时 间 序 列 数 据 的 分 析 找 到 特定 的 规则 和 感 兴 
的 特性 ,包括 搜索 相似 序列 或 子 序列 ,挖掘 序列 模式 、 周 期 性 、 趋 势 和 偏差 。 预测 的 目的 是 对 
未 来 的 情况 做 出 估计 。 

6. 其 他 功能 

除了 上 述 主要 功能 外 ,还 包括 偏差 分 析 (Deviation Analysis) J 37. 43 4 Br COutlier 
Analysis) 等 。 

随 着 数据 挖掘 技术 的 不 断 发 展 ,新 的 应 用 层出不穷 。 


5.1.3 模型 


1. 5A 模型 

5A 模型 是 SPSS 提出 的 ,强调 的 是 数据 挖掘 工具 应 具有 的 功能 和 人 能力。5A 模型 认为 
数据 挖掘 方法 学 由 5 个 基本 元 素 组 成 . 即 Assess, Access, Analyze, Act 和 Automate, 
Assess: 正确 .彻底 地 评价 任务 的 需求 和 数据 ,正确 地 理解 商业 问题 和 数据 ,并 设计 
挖掘 计划 及 相关 准备 任务 。 
Access; 方便 ,快速 地 存 取 任务 涉及 的 数据 ,要 求 指 定 的 数据 集合 符合 挖掘 的 需求 和 
质量 。 
Analyze: 适当 、 完 备 的 分 析 技 术 和 工具 ,要 求 工 具 能 全 面 提供 适合 不 同 需求 的 各 种 
挖掘 、 建 模 算法 。 
Act; 具有 推荐 性 .说服 力 的 模型 演示 ,提供 可 视 化 的 模型 并 能 够 灵活 嵌入 到 各 类 展 
示 平 台中 。 

* Automate; 自动 地 提供 挖掘 结果 并 展现 给 用 户 。 

2. SEMMA 模型 

SEMMA 是 SAS 提出 的 数据 挖掘 过 程 模型 ,由 抽样 (Sample)、 探 索 (Explore)、 调 整 
(Modify)、 建 模 (Model) 和 评价 (Assess) 五 个 步骤 组 成 ,如 图 5. 1 所 示 。 

1) 数据 取样 

进行 数据 挖掘 时 ,首先 需要 从 大 量 数据 中 取出 一 个 与 所 要 探索 问题 相关 的 数据 子 集 ,而 
不 是 动用 全 部 数据 。 犹 如 对 开采 出 来 的 矿石 首先 要 进行 选矿 一 样 。 通 过 数据 筛选 ,不 仅 能 
减少 数据 处 理 量 , 节 省 系统 资源 ,而 且 使 所 反映 的 规律 性 更 加 凸现 出 来 。 

2) 数据 特征 探索 .分 析 和 预 处 理 

前 面 提 及 的 数据 取样 ,多 少 是 带 着 人 们 对 如 何 达 到 数据 挖掘 目的 的 先 验 认识 进行 操作 
的 。 当 获得 样本 数据 集 后 ,是 否 可 达到 预想 的 要 求 ; 是 否 存 在 明显 的 规律 和 趋势 ; 因素 之 
间 有 何 相 关 性 ; 可 划分 为 怎样 的 类 别 等 都 是 需要 探索 的 内 容 。 进 行 数据 特征 的 探索 和 分 
析 , 最 好 是 采用 可 视 化 的 操作 ,显示 各 种 统计 分 析 的 结果 ,而 且 可 以 多 维 、 动 态 甚 至 旋转 方式 
显示 。 
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5.1 数据 挖掘 过 程 模型 一 一 SEMMA 


3) 问题 明确 化 .数据 调整 和 技术 选择 

通过 上 述 两 个 步骤 ,对 数据 的 状态 和 趋势 可 能 有 了 进一步 的 了 解 , 对 原先 要 解决 的 问题 
可 能 会 进一步 明确 ,这 时 应 尽 可 能 对 需求 进行 量化 ,这 是 十 分 重要 的 。 例 如 很 可 能 因为 诸如 
质量 不 好 ,生产率 低 等 一 些 模糊 的 问题 而 无 法 进行 有 效 的 数据 挖掘 。 

在 问题 明确 的 基础 上 ,可 以 按照 问题 的 具体 要 求 审视 数据 集 ,以 确定 是 否 满足 需求 。 
Gartner Group 在 评论 当前 一 些 数 据 挖掘 产品 时 特别 强调 指出 : 在 数据 挖掘 的 各 个 阶段 , 数 
据 挖掘 的 产品 都 要 让 所 使 用 的 数据 和 所 建立 的 模型 处 于 十 分 易于 调整 .修改 和 变动 的 状态 ， 
这 才能 保证 数据 挖掘 的 有 效 进行 。 

针对 需要 可 能 要 对 数据 进行 增删 ,也 可 能 按照 对 整个 数据 挖掘 过 程 的 新 认识 ,组 合 或 者 
生成 一 些 新 的 变量 。 

D 模型 的 研发 .知识 的 发 现 

正如 Gartner Group 评论 中 所 指出 的 : 数理 统计 方法 还 是 数据 挖掘 工作 中 最 常用 的 主 
流 手段 。 挖 掘 过 程 中 可 能 需要 各 种 不 同类 型 的 模型 .不 同 特征 数据 的 回归 分 析 , 如 正 交 回 
JH 线性 回归 、Logistic 回归 和 非 线 性 回归 等 ,可 处 理 的 数据 包括 实 型 有 序 和 属性 数据 等 ， 
并 能 产生 各 种 有 用 的 统计 量 和 诊断 信息 。 


5) 模型 和 知识 的 综合 解释 和 评价 

3. CRISP-DM 模型 

为 了 使 数据 挖掘 技术 在 产业 界 得 到 更 好 的 应 用 ,欧洲 委员 会 联合 一 些 数据 挖掘 软件 厂 
商 开 发 了 CRISP-DM(Cross Industry Standard Process for Data Mining) 模 型 ,如 图 5.2 所 
示 , 旨 在 把 数据 挖掘 过 程 标准 化 ,使 数据 挖掘 的 实施 速度 更 快 、 成 本 更 低 、 更 可 靠 并 且 更 易于 
管理 。1996 年 CRISP-DM 模型 被 首次 提出 ,并 在 各 种 KDD 模型 中 占据 领先 地 位 ,份额 达 
到 近 60% 。 


| 业务 理解 


Kd mm | 


系统 部 署 


建立 模型 


模型 评估 


5.2 CRISP-DM 模型 


CRISP-DM 模型 中 ,数据 挖掘 过 程 划 分 为 如 下 六 个 阶段 。 
D 业务 理解 (Business Understanding) Bt Pt 
本 阶段 专注 于 从 商业 角度 理解 项 目 目标 和 需求 ,并 转化 为 数据 挖掘 的 问题 定义 ,同时 设 
计 出 一 个 初始 计划 。 具 体 包括 : 
(1) 确定 业务 目标 (Determine Business Objectives) 
分 析 员 第 一 步 要 做 的 是 从 商业 角度 全 面 地 理解 客户 真正 希望 达到 的 目的 。 客 户 的 目标 
常常 具有 挑战 性 但 同时 又 有 很 多 限制 ,需要 很 好 地 权衡 。 分 析 员 最 开始 要 做 的 是 找到 影响 
整个 项 目的 重要 因素 。 如 果 缺 少 这 一 阶段 ,很 可 能 会 导致 给 出 的 答案 是 正确 的 但 是 提出 的 
问题 却 是 错 的 。 这 一 步骤 应 获得 的 相关 细节 包括 : 
。 背景 (Background) 一 一 了 解 有 关 组 织 或 企业 商业 状况 的 详细 信息 。 
。 商 业 目 标 (Business Objectives) 一 一 从 商业 角度 描述 客户 的 最 主要 目标 ,客户 通常 
应 该 从 商业 角度 提出 很 多 问题 ,例如 一 个 主要 的 商业 目标 是 预测 客户 何 时 可 能 流向 
竞争 对 手 , 提 出 的 问题 可 能 就 是 “一 个 电信 客户 所 使 用 的 主要 业务 受理 渠道 (ATM、 
客户 经 理 、Internet) 对 他 们 是 否 流 失 是 如 何 起 影响 作用 的 ?” 或 是 “降低 ATM 交易 
费 能 否 减 少 高 价值 客户 的 流失 ?” 

。 商业 成 功 标 准 (Business Success Criteria) 一 一 从 商业 角度 描述 一 个 数据 挖掘 项 目的 
结果 是 否 成 功 。 可 能 是 以 一 种 明确 的 方式 如 减少 客户 流失 率 至 某 个 级 别 或 者 更 一 般 
更 主观 的 方式 如 “发 现 有 用 的 联系 ”, 对 于 后 者 应 该 注 明 是 谁 做 出 的 这 一 主观 决定 。 
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(2) 评估 商业 环境 (Assess Situation) 

这 一 任务 涉及 对 很 多 资源 、 约 束 、 假 定 等 对 整个 项 目 计 划 和 目标 有 影响 的 因素 的 仔细 考 
察 。 前 一 个 任务 只 是 快速 了 解 大 致 情况 。 这 一 步骤 应 获得 的 相关 细节 包括 : 

。 资源 列表 (Inventory of Resources) 一 一 列 出 与 项 目 相 关 的 全 部 资源 ,包括 人 (领域 

专家 数据 专家 、 技 术 支 持 、 挖 气 人 员 ) 数据 (固定 抽取 的 数据 ,从 数据 仓库 或 业务 数 
据 库 中 获得 的 数据 ) 、 计 算 资 源 ( 硬 件 平台 ) 和 软件 资源 (数据 挖掘 工具 及 其 他 相关 
资源 )。 

。 TRABE R (Requirement, Assumption and Constraint) 一 一 列 出 项 目的 全 部 
需求 ,包括 完工 日 程 \ 对 结果 的 质量 要 求 、. 安 全 性 以 及 法 律 相 关 问题 。 列 出 项 目 所 作 
的 假定 以 及 约束 ,如 对 资源 的 约束 或 对 技术 的 约束 ,如 数据 的 大 小 对 于 建 模 是 可 
行 的 。 
风险 和 意外 开支 (Risk and Contingency) 一 一 列 出 可 能 导致 项 目 延 期 或 终止 的 事 
件 , 列 出 如 果 发 生 风险 所 带 来 的 意外 开支 。 

* 术语 表 (Terminology) 一 一 一 个 与 项 目 有 关 的 术语 表 应 该 有 两 个 ; 一 是 商业 术语 

表 , 另 一 个 是 数据 挖掘 的 技术 术语 表 。 

* 成 本 和 收益 (Cost and Benefit) 一 一 项 目的 成 本 收益 分 析 ,比较 项 目的 潜在 收益 及 其 

耗费 成 本 。 这 项 工作 应 该 非常 具体 ,如 采用 商业 上 的 货币 度量 方式 。 

(3) 确定 数据 挖掘 目标 

商业 目标 用 商业 术语 说 明 ,数据 挖掘 目标 则 用 技术 术语 说 明 。 如 商业 目标 是 “提高 已 有 
客户 的 销售 量 ” 而 数据 挖掘 目标 可 能 是 “在 给 定 其 过 去 三 年 的 购买 情况 数据 、 人 口 信 息 ( 年 
龄 ,收入 和 所 在 城市 等 ) 和 商品 价格 条 件 下 ,预测 某 个 客户 可 能 会 购买 多 少 ”。 这 一 步骤 的 相 
关 细 节 包 括 : 

。 数 据 挖掘 目标 (Data Mining Goal) 一 一 描述 项 目 预期 的 哪些 输出 会 使 商业 目标 获得 

成 功 。 


的 结果 。 如 果 商 业 目 标 是 以 主观 方式 描述 的 则 此 处 的 描述 可 能 也 将 以 主观 术语 描 
述 ,但 做 出 描述 的 人 应 该 被 注 明 。 
(4) 提出 项 目 计 划 (Produce Project Plan) 
描述 一 个 可 行 的 计划 以 达到 数据 挖掘 目标 和 商业 目标 。 计 划 应 该 预先 明确 项 目的 余下 
步骤 包括 工具 和 技术 的 初步 选取 。 这 一 步骤 的 相关 细节 包括 : 
。 项 目 计划 (Project Plan) 一 一 列 出 项 目的 执行 阶段 ,包括 时 间 、 所 需 资 源 、 输 入 、 输 出 
和 依赖 关系 ,可 能 会 在 某 些 环节 循环 或 重复 .项 目的 计划 根据 实际 需要 动态 更 新 。 
。 初步 估计 工具 和 技术 (Initial Assessment of Tool and Technique) 一 一 对 使 用 的 工 
具 和 技术 做 出 初步 估计 和 计划 。 
2) 数据 理解 (Data Understanding) 阶 段 
本 阶段 , 先 收集 初步 的 数据 ,然后 了 解 并 熟悉 数据 ,以 识别 数据 质量 、 找 到 对 数据 的 基本 
观察 或 假设 隐 含 的 信息 以 检测 出 感 兴趣 的 数据 子 集 。 具 体 包 括 : 
CD 收集 原始 数据 (Collect Initial Data) 
获取 在 项 目 资源 中 所 需 的 原始 数据 ,这 个 过 程 可 能 包括 数据 理解 ,这 相当 于 初步 的 数据 


准备 过 程 。 如 果 数 据 源 分 散 则 需要 对 数据 进行 集成 ,生成 原始 数据 收集 报告 (Initial Data 
Collection Report) ,其 中 列 出 获得 的 数据 集 , 列 出 其 在 项 目 中 的 位 置 、 获 取 数 据 的 方法 和 中 
到 的 任何 问题 及 其 解决 方法 。 

(2) 描述 数据 (Describe Data) 

查看 数据 的 表面 特性 ,生成 数据 描述 报告 (Data Description Report) ,描述 数据 的 格式 、 
质量 .字段 数 . 记 录 数 以 及 其 他 各 种 表面 特性 。 

(3) 探索 数据 (Explore Data) 

该 任务 为 进行 数据 挖掘 进行 一 定 的 查询 可视化 以 及 报告 工作 。 包 括 分 析 关 键 属性 , 预 
测 任务 的 目标 属性 、 属 性 间 的 关系 、 简 单 聚 集 的 结果 、 重 要 子 集 的 特征 和 简单 统计 的 分 析 。 
这 些 分 析 可 能 直接 对 数据 挖掘 目标 产生 影响 也 可 能 对 数据 描述 、 数 据 质量 报告 或 数据 准备 
有 用 。 生 成 数据 探索 报告 (Data Exploration Report) 描 述 此 项 工作 的 结果 ,包括 最 初 的 发 
现 、. 原 始 假设 及 其 对 项 目的 影响 。 该 报告 可 能 有 一 些 图 等 表示 数据 的 特性 或 有 意义 的 子 集 。 

(4) 检查 数据 质量 (Verify Data Quality) 

检查 数据 质量 ,可 以 提出 类 似 于 数据 是 否 完整 (是 否 覆 盖 全 部 情况 ) ,是 否 正确 ,如 果 有 
错误 ,错误 率 是 多 少 ,数据 中 是 否 有 缺失 值 , 如 果 存 在 缺失 值 则 它们 是 如 何 表示 的 ,在 何 处 发 
生 及 发 生 率 是 多 少 等 问题 。 生 成 数据 质量 报告 (Data Quality Report) , 列 出 数据 质量 验证 
结果 ,如 果 存 在 质量 问题 列 出 可 能 的 解决 方案 ,解决 方案 同时 依赖 于 数据 以 及 商业 知识 。 

3) 数据 准备 (Data Preparation) 阶段 

本 阶段 包括 从 数据 构造 到 最 终 数 据 集合 (将 要 输入 建 模 工 具 的 数据 ) 的 所 有 活动 。 数 据 
准备 任务 可 能 需要 执行 很 多 次 ,并 没有 任何 规定 的 顺序 。 任 务 包括 表 、 记 录 属 性 的 选择 以 及 
为 适应 建 模 工 具 的 要 求 对 数据 的 转换 和 清洗 。 具 体 包括 ， 

(1) 数据 选择 (Select Data) 

选择 分 析 用 的 数据 。 数 据 选 择 的 标准 是 与 挖掘 目标 、 质量 和 技术 约束 相关 。 数 据 的 选 
择 包括 行 和 列 的 选择 。 生 成 所 包含 /不 包含 的 数据 清单 (Rationale for Inclusion/Exclusion)， 
列 出 所 包含 /不 包含 的 数据 清单 及 其 原因 。 

(2) 数据 清洁 (Clean Data) 

提高 数据 质量 以 达到 数据 挖掘 的 要 求 。 可 能 包括 选择 已 经 清洁 的 数据 子 集 , 对 于 错误 
数据 的 修正 等 。 生 成 数据 清洁 报告 (Data Cleaning Report 描述 应 该 采取 哪些 方法 和 措施 
解决 数据 质量 问题 ,这 些 问题 在 验证 数据 质量 报告 中 曾经 提出 。 

(3) 数据 创建 (Construct Data) 

该 任务 指 根据 需要 产生 新 的 派生 属性 、 新 的 记录 或 变换 已 有 属性 值 。 这 一 步 又 的 相关 
细节 包括 : 

。 派生 属性 (Derived Attribute) 一 一 将 已 有 属性 组 合 或 变换 成 更 有 利于 知识 挖掘 的 派 

生 属性 ,如 面积 = 长 XX 宽 。 
。 生成 记录 (Generate Record) 一 一 说 明 新 生成 的 数据 ,例如 客户 去 年 没有 购买 记录 ， 
其 有 关 购 买 数量 的 记录 不 存在 ,创建 一 条 记录 将 其 购买 数量 设置 为 0 以 利于 分 析 。 

(4) 数据 合并 (Integrate Data) 

使 用 一 些 方法 将 多 个 表 或 记录 合并 为 新 的 记录 或 值 。 包 括 合并 数据 (Merged Data) , 合 
并 表 ( 将 两 个 或 多 个 对 同一 对 象 有 不 同 信息 的 表 中 的 记录 合成 在 一 张 表 中 ) 。 合 成 数据 也 包 
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括 聚 集 , 即 将 若干 记录 的 信息 累计 生成 新 的 信息 。 
(5) 数据 格式 化 (Format Data) 
数据 格式 化 指 可 能 因为 建 模 工具 的 要 求 改变 数据 的 形式 。 这 一 步骤 的 相关 细节 包括 重 
新 格式 化 数据 (Reformatted Data) : 有 些 工具 对 属性 的 顺序 有 要 求 , 例 如 第 一 个 域 是 记录 标 
识 符 , 最 后 一 个 域 用 于 预测 模型 的 输出 。 记 录 的 顺序 同样 很 重要 ,可 能 某 些 工具 需要 记录 根 
据 输 出 值 排序 ,通常 的 情况 下 表 的 记录 是 有 顺序 的 ,但 算法 要 求 使 用 乱 序 的 数据 ,例如 神经 
网 络 在 记录 是 随机 排列 时 效果 最 好 ,不 过 通常 无 须 人 为 干预 而 由 工具 本 身 完成 。 除 此 之 外 ， 
还 有 一 些 数据 有 按 词法 格式 化 的 需求 ,如 对 于 逗号 分 割 的 文本 字段 可 能 需要 删 去 逗号 ,字符 
串 最 长 不 超过 32 个 字符 等 。 
4) 建立 模型 (Modeling) 阶 段 
本 阶段 可 以 选择 各 种 建 模 技 术 ,各 类 模型 参数 也 可 以 调整 优化 。 对 同一 个 数据 挖掘 问 
题 可 以 有 多 种 可 用 技术 , 某 些 技术 对 数据 的 形式 有 一 定 的 要 求 , 因 此 常常 要 退回 到 数据 准备 
阶段 。 具 体 包 括 : 
(1) 选择 建 模 技 术 (Select Modeling Technique) 
确定 数据 挖掘 算法 和 参数 ,可 能 会 利用 多 个 算法 。 作 为 建 模 任务 的 第 一 步 , 应 该 选择 实 
际 使 用 的 建 模 技术 。 与 在 商业 理解 阶段 选择 建 模 技术 相 比 本 阶段 更 加 明确 指定 具体 的 建 模 
技术 ,如 明确 决策 树 是 使 用 C4. 5 算法 构造 还 是 BPCBack Propagation) 神 经 网 络 算法 。 如 果 
使 用 多 种 技术 ,需要 对 每 一 种 技术 分 别 进行 此 项 工作 。 选 择 什么 样 的 模型 决定 了 需要 对 数 
据 做 哪些 预 处 理 , 如 神经 网 络 模型 需要 转换 数据 ,有 些 数据 挖掘 工具 可 能 对 输入 数据 的 格式 
有 特定 限制 。 一 旦 所 有 的 数据 准备 好 之 后 ,可 开始 训练 模型 。 这 一 步骤 除 建 模 技术 外 还 包 
括 建 模 假设 (Modeling Assumption) , 即 很 多 建 模 技术 对 数据 都 做 一 定 的 假设 ,例如 所 有 属 
性 具有 同样 的 权重 ,没有 缺失 值 ,分 类 属性 必须 是 符号 化 的 等 。 
(2) 测试 方案 设计 (Generate Test Design) 
设计 某 种 测试 模型 的 质量 和 有 效 性 的 机 制 。 在 真正 生成 模型 之 前 ,需要 建立 一 个 测试 
过 程 或 机 制 来 保证 模型 的 质量 和 正确 性 ,例如 对 于 分 类 很 自然 地 使 用 错误 率 作 为 分 类 模型 
的 质量 评价 度量 。 因 此 可 以 将 数据 分 为 训练 集 和 测试 集 ,在 训练 集 上 建立 模型 ,在 测试 集 上 
测试 模型 的 质量 。 这 一 步骤 的 相关 细节 包括 : 
。 测试 方案 (Test Design) 一 一 该 方案 说 明 如 何 训练 ,测试 和 评估 模型 ,其 中 一 个 主要 
部 分 是 数据 如 何 划 分 为 训练 集 、 测 试 集 和 评估 集 。 
。 模 型 训练 (Build Model) 一 一 在 准备 好 的 数据 集 上 运行 数据 挖掘 算法 ,得 出 一 个 或 者 
多 个 模型 。 
。 模型 测试 评估 (Assess Model) 一 一 根据 测试 方案 进行 测试 ,从 数据 挖掘 角度 确定 数 
据 挖掘 目标 是 否 成 功 。 
5) 模型 评估 (Evaluation) 阶 段 
在 最 终 扩 展 模型 前 需要 彻底 地 评价 模型 ,对 所 建 模型 再 次 考察 其 执行 步骤 并 确信 其 正 
确 地 达到 了 商业 目标 。 这 里 ,一 个 关键 的 目的 是 确定 是 否 有 某 些 重要 的 商业 问题 还 没有 充 
分 地 考虑 到 。 具 体 包括 : 
。 结果 评估 (Evaluate Result) 一 一 从 商业 角度 评估 获得 的 模型 ,甚至 实际 试用 该 模型 
测试 其 效果 。 
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* 过 程 回顾 (Review Process) 回顾 项 目的 所 有 流程 ,确定 每 一 阶段 都 没有 失误 。 
* 确定 下 一 步 工 作 (Determine Next Step) 一 一 根据 结果 评估 和 过 程 回 顾 得 出 的 结论 ， 
确定 是 部 署 该 挖掘 模型 还 是 从 某 个 阶段 重新 开始 。 

6) 部 署 (Deployment) 阶 段 

所 获得 的 挖掘 结果 和 知识 应 该 采用 用 户 可 以 使 用 的 方式 来 组 织 和 表示 。 可 以 简单 到 只 
有 一 份 报告 也 可 以 实现 一 个 可 以 重复 的 挖掘 过 程 或 系统 。 很 多 情况 下 ,这 将 由 用 户 而 非 分 
析 员 实施 。 具 体 包括 : 

。 部 署 计 划 (Plan Deployment) 一 一 对 在 业务 运作 中 部 署 模型 做 出 计划 。 

。 监控 和 维护 计划 (Plan Monitoring and Maintenance) 一 一 如 何 监控 模型 在 实际 业务 
中 的 使 用 情况 ,如 何 维护 该 模型 。 
做 出 最 终 报告 (Produce Final Report) 一 一 总 结 项 目 经 验 和 项 目 结果 。 
项 目 回顾 (Review Project) 一 一 回顾 项 目的 实施 过 程 , 总 结 经 验 教训 ,预测 数据 挖掘 
的 运行 效果 。 

为 了 保证 数据 挖掘 项 目的 可 靠 性 和 可 管理 性 ,按照 CRISP-DM 模型 规定 应 该 产生 11 个 报 
告 , 即 业务 理解 报告 .原始 数据 收集 报告 .数据 描述 报告 .数据 探索 报告 .数据 质量 报告 .数据 
集 描述 报告 .模型 训练 报告 .模型 评估 报告 .部 署 计划 ,监控 和 维护 计划 和 总 结 报告 。 通 过 这 
些 报告 ,可 以 有 效 地 控制 数据 挖掘 的 项 目 进 程 ,减少 开发 风险 。 

CRISP-DM 模型 给 出 了 整个 数据 挖掘 项 目的 流程 。 对 于 一 个 数据 挖掘 系统 ,实际 上 只 
涉及 到 其 中 的 数据 准备 、 模 型 训练 和 模型 评估 三 个 阶段 ,而 业务 理解 和 数据 理解 则 是 为 数据 
挖掘 系统 准备 输入 ,模型 部 署 是 数据 挖掘 系统 的 实施 。 


5.1.4 展望 


近年 来 ,数据 挖掘 的 研究 重点 逐渐 从 发 现 方法 转向 系统 应 用 ,注重 多 种 策略 和 技术 的 集 
成 ,以 及 多 学 科 之 间 的 相互 渗透 ,如 1998 年 在 美国 纽约 举行 的 第 四 届 知 识 发 现 与 数据 挖掘 
国际 学 术 会 议 上 不 仅 进 行 了 学 术 讨论 ,并且 有 三 十 多 家 软件 公司 展示 了 数据 挖掘 软件 产品 ， 
不 少 软件 已 在 北美 .欧洲 得 到 应 用 。 

目前 ,数据 挖掘 在 银行 电信、 保险 .交通 和 零售 (如 超市 ) 等 领域 都 有 成 功 的 应 用 案例 ， 
随 着 商业 竞争 加 剧 , 对 数据 挖掘 的 需求 将 愈加 紧迫 。 

就 应 用 领域 而 言 , 当前 数据 挖掘 的 热点 包括 网 站 的 数据 挖掘 .生物 信息 或 基因 
(Bioinformatics/genomics) 挖 所 ,文本 挖掘 (Text Mining) 和 多 媒体 挖掘 等 。 下 面 分 别 加 以 
简要 介绍 。 

1. 网 站 的 数据 挖掘 

当前 Internet. 上 各 类 电子 商务 网 站 风起云涌 ,电子 商务 的 竞争 比 传统 商业 竞争 更 加 激 
烈 。 客 户 从 一 个 电子 商务 网 站 转换 到 竞争 对 手 那 边 , 只 需 单 击 几 下 鼠标 即 可 ,电子 商务 环境 
下 客户 保有 比 传统 商业 更 加 困难 ,车 想 在 激烈 的 竞争 中 生存 , 则 必须 比 竞争 对 手 更 了 解 客 
户 。 电 子 商务 网 站 每 天 都 可 能 有 上 百 万 次 的 在 线 交 易 , 生 成 大 量 的 日 志文 件 (Log File) 和 
登记 表 , 如 何 对 这 些 数 据 进 行 分 析 和 挖掘 ,充分 了 解 客 户 的 喜好 、 购 买 习惯 甚至 是 客户 一 时 
的 冲动 ,设计 出 满足 不 同 客户 群 需求 的 个 性 化 网 站 ,进而 增加 竞争 力 ,几乎 是 势 在 必 行 。 
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就 分 析 和 建 模 而 言 ,网 站 的 数据 挖掘 和 现 有 的 数据 挖掘 差别 并 不 是 特别 大 ,很 多 方法 和 
分 析 思 路 都 可 以 借鉴 ,所 不 同 的 是 网 站 的 数据 格式 有 很 大 一 部 分 来 自 于 点 击 流 , 与 传统 的 数 
据 格式 有 所 区 别 。 因 而 对 电子 商务 网 站 进行 数据 挖掘 所 做 的 主要 工作 是 数据 准备 。 目 前 ， 
有 很 多 厂商 正 致力 于 开发 专门 的 软件 。 

2. 生物 信息 或 基因 挖掘 

生物 信息 或 基因 挖掘 则 完全 属于 另 一 个 领域 ,其 商业 价值 很 难 估计 ,但 对 于 人 类 却 受 益 
菲 浅 。 例 如 ,基因 组 合 千变万化 , 患 有 某 种 疾病 的 人 的 基因 和 正常 人 的 基因 到 底 差别 多 大 ? 
能 否 找 出 差异 ,进而 加 以 改变 使 之 成 为 正常 基因 ? 这 都 需要 数据 挖掘 技术 的 支持 。 

对 于 生物 信息 或 基因 的 挖掘 和 通常 的 数据 挖掘 相 比 ,无 论 在 数据 的 复杂 度 、 数 据 量 以 及 
分 析 和 建 模 上 都 复杂 得 多 。 就 算法 而 言 , 需 要 一 些 新 的 和 好 的 算法 ,目前 很 多 厂商 致力 于 这 
方面 的 研究 ; 就 技术 和 软件 而 言 , 还 远 没有 达到 成 熟 。 

3. 文本 挖掘 (Text Mining) 

文本 挖掘 是 另 一 个 人 们 颇 感 兴趣 的 领域 ,例如 客户 服务 中 心 把 同 客户 的 谈话 内 容 转换 
为 文本 ,再 进行 挖掘 ,进而 了 解 客 户 对 服务 的 满意 度 和 客户 的 需求 以 及 客户 之 间 的 相互 关 

无 论 是 在 数据 结构 还 是 在 分 析 方 法 方面 ,文本 挖掘 和 前 面 提 及 的 数据 挖掘 相差 很 大 。 
文本 挖掘 并 不 是 一 件 容 易 的 事情 ,尤其 是 在 分 析 方法 方面 ,还 有 很 多 需要 研究 的 专题 。 目 前 
市 场 上 有 一 些 类 似 的 软件 ,但 大 部 分 只 是 把 文本 移 来 移 去 ,或 简单 地 计算 某 些 词汇 出 现 的 频 
率 , 并 没有 真正 的 分 析 功能 。 

4. 多 媒体 挖掘 (Multimedia Mining) 

多 媒体 挖掘 主要 包括 两 个 方面 。 基 于 描述 的 检索 是 指 基 于 图 像 描述 创建 索引 并 实现 
对 象 检 索 ,如 关键 字 标题. 尺寸 和 创建 时 间 等 。 若 通过 人 工 实现 极为 费力 , 若 自 动 实现 
往往 结果 不 甚 理想; 基于 内 容 的 检索 是 指 支持 基于 图 像 内 容 的 检索 ,如 颜色 、 质 地 、 形 状 
和 对 象 等 。 

当前 ,数据 挖掘 研究 的 焦点 集中 在 以 下 几 个 方面 : 

(1) 发 现 语言 的 形式 化 描述 

即 研究 专门 用 于 知识 发 现 的 数据 挖掘 语言 ,寻求 类 似 于 数据 库 SQL 语言 的 数据 挖掘 语 
言 ,使 挖掘 过 程 走 向 形式 化 和 标准 化 。 

(2) 寻求 数据 挖掘 过 程 中 的 可 视 化 方法 

使 知识 发 现 的 过 程 能 够 被 用 户 理解 ,便于 在 知识 发 现 过 程 中 实现 人 机 交互 。 

(3) 研究 在 网 络 环境 下 的 数据 挖掘 技术 

特别 是 在 Internet 上 建立 Web 服务 器 ,并 且 与 数据 库 服 务 器 配合 ,实现 Web 挖掘 
(Web Mining). 

(4) 加 强 对 各 种 非 结构 化 数据 的 挖掘 (Data Mining for Audio& Video) 

如 对 文本 、 图 形 .视频 .音频 乃至 流 媒 体 的 挖掘 。 

C5) 知识 的 维护 更 新 

数据 挖掘 的 结果 一 一 知识 是 具有 时 效 性 的 ,需要 研究 知识 的 维护 更 新 技术 ,如 知识 的 增 
量 更 新 以 及 模型 进化 等 。 


5.2 实现 


数据 挖掘 的 实现 过 程 如 图 5.3 所 示 。 


图 5.3 数据 挖掘 的 实现 过 程 


1. 数据 准备 

KDD 的 处 理 对 象 是 海量 数据 ,它们 一 般 存 储 在 数据 库 系统 ,是 长 期 积累 的 结果 。 但 往 
往 不 适合 直接 进行 数据 挖掘 ,需要 进行 预 处 理 。 数 据 预 处 理 包括 数据 的 选择 清洁 ( 消 除 噪 
声 \ 宛 余数 据 ) ,推测 (推算 缺失 数据 ) ,转换 (离散 型 数据 与 连续 型 数据 之 间 的 转换 ) 、 数 据 缩 
减 (减少 数据 量 ) 等 。 

数据 准备 是 KDD 的 第 一 个 步骤 ,其 成 功 与 否 将 影响 到 数据 挖掘 的 效率 、 准 确 性 以 及 最 
终 模 型 的 有 效 性 。 

2. 数据 挖掘 

数据 挖掘 是 最 为 关键 的 一 个 步骤 , 它 根据 KDD 的 目标 ,选取 相应 算法 的 参数 ,分 析 数 
据 , 得 到 可 能 形成 知识 的 模型 ,目前 常用 的 包括 决策 树 、 分 类 、 聚 类 、 粗 烟 集 、 关 联 规则 、 人 工 
神经 网 络 和 遗传 算法 等 。 

3. 模式 的 评估 、 解 释 

通过 上 述 步 又 得 到 的 模式 ,有 可 能 是 没有 意义 或 没有 实用 价值 的 ,因此 需要 评估 ,确定 
哪些 是 有 效 的 有 用 的 模式 。 此 外 ,大 部 分 模式 是 数学 的 表达 式 ,很 难 被 人 理解 ,还 需要 将 其 
解释 成 可 理解 的 方式 呈现 给 用 户 。 

4. 知识 运用 

发 现 知识 是 为 了 运用 ,如 何 运 用 知识 也 是 KDD 的 关键 。 运 用 知识 主要 有 两 种 途径 : 其 
一 是 只 需 看 知识 本 身 描述 的 关系 或 结果 ,就 可 以 对 决策 提供 辅助 支持 ; 其 二 是 要 求 对 新 的 
数据 运用 知识 ,由 此 可 能 产生 新 的 问题 .并 需要 对 知识 做 进一步 优化 。 

KDD 过 程 可 能 需要 多 次 的 循环 反复 ,一 旦 某 个 步骤 与 预期 目标 不 符 , 则 需要 回溯 到 前 
面 的 步骤 ,重新 调整 和 执行 。 

在 数据 挖掘 的 实现 过 程 中 ,不 同步 骤 需 要 具有 不 同 专长 的 人 员 参 与 完成 ,大 致 可 以 分 为 
三 类 ， 

* 业务 分 析 人 员 一 一 要 求 精 通 业 务 ,能 够 确定 数据 定义 和 挖掘 算法 的 业务 需求 。 

。 数据 分 析 人 员 一 一 精通 数据 分 析 技 术 ,熟练 掌握 统计 学 方法 ,有 能 力 把 业务 需求 转 

化 为 数据 挖掘 的 各 步 操作 ,并 为 每 步 操 作 选 择 合适 的 技术 。 
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* 数据 管理 人 员 一 一 精通 数据 管理 技术 ,负责 从 数据 库 或 数据 仓库 中 获取 数据 。 

由 此 可 知 ,数据 挖掘 是 一 个 多 领域 专家 合作 的 过 程 ,同时 也 是 一 个 在 资金 和 技术 上 
高 投入 的 过 程 , 这 一 过 程 需要 反复 进行 ,以 不 断 地 趋 近 事物 的 本 质 , 不 断 地 优化 问题 的 解决 
方案 。 

一 般 地 ,企业 实施 数据 挖掘 的 方式 主要 是 三 种 , 即 : 

”购买 成 熟 的 模型 

。 购买 通用 的 数据 挖掘 软件 

。 定制 数据 挖掘 系统 

第 一 种 方式 实现 简单 ,可 以 直接 应 用 ,但 是 要 求 模型 所 模拟 的 环境 必须 和 企业 的 产品 、 
客户 以 及 市 场 条 件 相 类 似 。 当 模型 涉及 的 环境 条 件 改变 时 ,不 能 根据 环境 的 变化 做 出 修改 
和 调整 。 第 二 种 方式 可 以 利用 数据 挖掘 系统 根据 企业 自身 的 数据 生成 模型 。 但 是 ,一 个 通 
用 的 数据 挖掘 系统 在 对 特定 的 商业 问题 的 理解 上 可 能 需要 做 很 多 工作 。 同 时 ,如 何 与 企业 
现 有 系统 自动 化 集成 也 是 一 个 需要 着 重 考虑 的 问题 。 第 三 种 方式 可 以 较 好 地 解决 与 现 有 系 
统 集成 的 问题 ,并 可 以 直接 面向 特定 的 商业 问题 的 解决 。 但 是 这 种 方式 实现 较 复杂 ,项 目 实 
施 周 期 长 ,成 本 较 高 。 

当然 ,企业 也 可 以 把 上 述 三 种 方式 结合 起 来 ,例如 购买 包含 模型 的 数据 挖掘 软件 、 购 买 
通用 数据 挖掘 软件 系统 进行 针对 本 企业 的 二 次 开发 等 。 

根据 电信 行业 的 特点 ,我 们 认为 构建 一 个 适合 企业 自身 特点 的 数据 挖掘 系统 是 较 好 的 
选择 (包括 购买 针对 本 行业 特点 开发 的 数据 挖掘 系统 )。 


5.3 工具 


5.3.1 概述 


数据 挖掘 的 应 用 前 景 非常 广阔 ,相关 产品 研发 方兴未艾 。 目 前 ,已 经 出 现 了 几 十 种 商用 
数据 挖掘 产品 和 工具 。 

数据 挖掘 工具 的 发 展 大 体 经 历 了 四 个 阶段 。 

第 一 代数 据 挖掘 工具 支持 一 个 或 少数 几 种 数据 挖掘 算法 ,可 以 挖掘 向 量 数 据 (Vector- 
valued Data) ,挖掘 时 一 般 一 次 性 调 入 内 存 进行 处 理 。 典 型 产品 包括 CBA 和 Salford 
Systems 公司 早期 的 CART 系统 。 

第 二 代数 据 挖掘 工具 支持 数据 库 和 数据 仓库 ,和 它们 之 间 有 高 性 能 接口 ,具有 较 好 的 可 
扩展 性 ,能 够 挖掘 更 大 、 更 复杂 以 及 高 维 的 数据 集 。 通 过 支持 数据 挖掘 模式 (Data Mining 
Schema) 和 数据 挖掘 查询 语言 (DMQL) 增 加 了 系统 的 灵活 性 。 典 型 产品 是 DBMiner。 

第 三 代数 据 挖掘 工具 的 特点 是 能 够 挖掘 Internet/Extranet 的 分 布 式 和 高 度 异 构 的 数 
据 , 并 且 能 够 有 效 地 与 操作 型 系统 集成 。 其 关键 技术 之 一 是 提供 对 建立 在 异 构 系 统 上 的 多 
个 预测 模型 以 及 管理 这 些 预 测 模型 的 元 数据 提供 第 一 级 的 支持 ,但 不 支持 移动 环境 。 典 型 
产品 是 SPSS Clementine。 

第 四 代数 据 挖掘 工具 能 够 挖掘 府 入 式 系统 、 移 动 系统 和 普 适 的 计算 设备 产生 的 各 种 类 
型 的 数据 。 


数据 挖掘 工具 的 应 用 主要 分 为 三 类 : 

CD 通用 数据 挖掘 工具 ,不 区 分 具体 数据 的 含义 ,采用 通用 的 挖掘 算法 ,处 理 常 见 的 数 
据 类 型 。 通 用 数据 挖掘 工具 可 以 实现 多 种 模式 的 挖掘 ,挖掘 什么 .用 什么 挖掘 都 由 用 户 根 据 
实际 进行 选择 ,如 SAS Enterprise Miner, IBM Intelligent Miner, UnicaPRW, SPSS Clementine, 
SGI MineSet Oracle Darwin 和 Angoss KnowledgeSeeker 等 。 

(2) 综合 数据 挖掘 工具 ,能 提供 管理 报告 .在 线 分 析 处 理 和 普通 的 数据 挖掘 能 力 , 如 
Cognos Scenario 和 Business Objects 等 。 

(3) 专用 数据 挖掘 工具 ,是 面向 特定 应 用 的 数据 挖掘 工具 ,针对 某 一 特定 领域 的 问题 提 
供 解决 方案 。 在 设计 算法 时 充分 考虑 了 数据 和 需求 的 特殊 性 ,并 进行 优化 。 其 针对 性 比较 
强 , 只 能 用 于 一 种 应 用 ,因此 往往 采用 特殊 的 算法 ,可 以 处 理 特殊 的 数据 ,实现 特殊 的 目的 ， 
发 现 的 知识 可 靠 度 较 高 。 如 KDI( 零 售 ) Options & Choices( 保 险 ) 和 HNC( 欺 诈 行 为 探 
查 ) 等 。 

各 种 数据 挖掘 工具 各 有 千秋 ,适用 不 同 的 环境 ,了 解 这 些 工具 的 特性 ,并 根据 企业 
特点 选择 合适 的 数据 挖掘 工具 是 一 个 非常 具有 挑战 性 的 问题 。 由 于 各 公司 的 背景 、 财 
力 和 挖掘 水 平 各 不 相同 ,对 数据 挖掘 工具 的 需求 也 不 尽 相 同 。 目 前 ,国际 上 在 数据 库 、 数 
据 仓库 的 性 能 评测 方面 最 权威 的 机 构 是 交易 处 理性 能 委员 会 (Transaction Processing 
Performance Council, TPPC) 。 但 是 ,到 目前 为 止 数据 挖掘 方面 可 供 参考 的 权威 评估 报告 
非常 少 。 最 近 的 一 份 完 整 而 权威 的 数据 挖掘 工具 评估 报告 是 由 John F. ElderIV 和 Dean 
W. Abbott 在 1998 年 完成 的 ,可 以 说 它 已 经 过 时 了 。 

一 般 而 言 ,对 数据 挖掘 工具 的 选择 可 考虑 以 下 方面 : 

CD 公司 的 数据 挖掘 需求 是 短期 还 是 长 期 

如 果 是 短期 行为 ,可 购买 那些 能 解决 特定 问题 的 软件 包 或 外 包 给 咨询 公司 ; 如 果 是 长 
期 使 用 ,需要 购买 功能 较 丰 富 ,使 用 较 方 便 ,维护 升级 较 好 的 企业 型 数据 挖掘 工具 。 

(2) 公司 的 数据 挖掘 经 验 和 水 平 

应 该 根据 公司 内 部 数据 挖掘 团队 的 经 验 和 水 平 ,选取 一 些 经 过 基本 培训 后 就 能 掌握 的 
工具 ,而 不 是 盲目 求 好 ,最 终 导 致 因 不 会 使 用 工具 而 将 其 束之高阁 ,从 而 造成 不 必要 的 浪费 。 
在 选择 数据 挖掘 工具 前 ,必须 对 公司 现 有 的 数据 进行 评估 。 如 果 不 具备 针对 业务 主题 进行 
挖掘 (例如 风险 预测 ) 的 数据 或 者 现 有 格式 不 能 满足 数据 挖掘 工具 的 需求 , 则 需要 在 数据 具 
备 后 ,再 考虑 购买 。 

(3) 公司 的 预算 

当然 ,在 评估 数据 挖掘 工具 时 ,公司 也 需要 结合 自身 的 财务 预算 做 出 决定 。 

(4) 工具 的 性 能 

好 的 工具 可 以 更 有 效 地 挖掘 出 准确 、 高 价值 的 信息 和 知识 ,所 以 工具 性 能 的 评估 也 是 相 
当 重 要 。 


5.3.2 比较 


下 面 将 从 运行 平台 、 易 用 性 、 算 法 、 灵 活性 (算法 参数 、 选 项 等 ) 和 挖掘 过 程 自 动 化 等 方 
面 ,对 表 5. 2 列 出 的 常见 的 数据 挖掘 工具 进行 比较 。 
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表 5.2 常见 的 数据 挖掘 工具 
> s ^ mH x 页 版 本 
I l Solutions, 
SPSS Clementine ix | 4.0 
. Thinking Machines, | http://www. think. com/html/products/ 
Darwin 3.0.1 
Corp. products, htm 
http://www. sas. ftwa: t: 
Enterprise Miner SAS Institute dd // ey De Beta 
miner, html 
http: . sof . ibm. dat: 
er ee IBM butp //www. software. ibm. com/data/ 
iminer/ 
Unica Technologies, 
PRW a R EES http://www. unica-usa. com/prodinfo. htm 2.1 
nc. 
uns S http://www. cognos. com/ busintell/ products/ j 


1. 支持 的 平台 和 数据 库 连接 
数据 挖掘 工具 所 支持 的 平台 和 数据 库 连 接 是 影响 其 性 能 的 重要 因素 。 一 个 只 有 PC 单 
机 版 的 工具 在 处 理 大 数据 时 会 存在 严重 的 效率 问题 ,而 一 个 具有 跨 平台 的 C/S 架构 的 工具 
可 能 会 具有 更 好 的 伸展 性 (Scalability)。 而 从 数据 库 中 存 取 数据 的 效率 更 是 每 个 数据 挖掘 
工具 必须 考虑 的 重要 问题 。 常 见 的 数据 挖掘 工具 在 平台 和 数据 库 连接 方式 上 的 比较 如 


表 5. 3 所 示 。 
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index. html 


表 5.3 常见 的 数据 挖掘 工具 在 平台 和 数据 库 连接 方式 上 的 比较 


单 机 版 


C/S 版 数 据 源 


SPSS Clementine 


PC 和 UNIX 无 


ODBC 


Darwin 


无 UNIX Server/PC Client ODBC 


UNIX Server/PC Client 


Enterprise Miner PC : ODBC 和 Native Database Drivers 
和 NTServer/PC Client 
Intelligent Miner PC UNIX Server/PC Client Native Database Drivers 
PRW PC x ODBC 
仅 支 据 库 文件 (Dbase、 excel、 
Scenario PC 无 RE MIENNE 
csv 等 ) 


可 以 看 到 这 些 工 具 一 般 都 有 PC 上 的 单机 版 ,但 并 不 是 每 一 个 都 有 UNIX 平台 的 
Server 端 。 而 且 虽 然 它们 都 可 以 与 数据 库 相 连接 ,但 连接 方式 各 不 相同 ,可 能 会 存在 很 大 的 
效率 差别 (更 具体 的 连接 手段 可 查看 相关 产品 手册 ) 。 


2. 算法 


算法 是 数据 挖掘 工具 的 核心 ,是 区 别 于 其 他 数据 分 析 工 具 的 主要 因素 。 一 个 数据 挖掘 
工具 支持 的 算法 在 很 大 程度 上 体现 了 其 性 能 。 各 种 数据 挖掘 工具 支持 的 主要 算法 如 表 5. 4 


所 示 。 


表 5.4 各 种 数据 挖掘 工具 支持 的 主要 算法 


算 法 SESS Darwin Enterprise Tntelligent PRW — 
Clementine Miner Miner 

决策 树 有 有 有 有 无 有 
神经 网 络 有 有 有 有 有 无 
回归 分 析 有 无 有 有 有 无 
4&3] 3E PR (Radial Basis 

Function, RBF) 大 a B s E 加 
最 近邻 无 无 有 无 有 无 
最 近 均值 无 无 无 无 有 无 
Kohonen 自 组 织 映射 有 无 有 无 无 无 
LE 有 无 无 有 有 无 
关联 规则 有 无 无 有 无 无 


表 5.4 中 列 出 的 只 是 所 支持 算法 的 大 致 类 别 , 事 实 上 还 有 其 他 算法 (如 时 间 序 列 等 ) 。 
而 且 , 对 于 同一 类 算法 各 个 工具 采用 的 具体 算法 也 不 相同 。 由 于 采用 的 算法 不 同 , 它 们 表现 
出 不 同 的 效率 和 结果 。 

在 算法 参数 控制 和 扩展 功能 方面 ,对 比 上 述 工具 可 以 发 现 Enterprise Miner 和 PRW 对 
参数 控制 实现 得 较 好 ,而 这 方面 Intelligent Miner 较 弱 。 几 乎 所 有 的 工具 都 提供 对 决策 树 
实数 值 的 处 理 和 图 形 展 示 等 功能 ,但 只 有 SPSS Clementine 和 Scenario 较 好 地 实现 了 决策 
树 的 修剪 功能 。 此 外 ,神经 网 络 的 功能 扩展 方面 也 差别 较 大 。 

3. 易 用 性 

作为 商用 产品 , 易 用 性 是 提高 客户 满意 度 和 市 场 占 有 率 的 重要 因素 。 表 5. 5 从 数据 装 
载 和 操作 、 模 型 建立 、 模 型 理解 和 技术 支持 四 个 方面 对 上 述 常 见 数据 挖掘 工具 进行 了 比较 。 


表 5.5 数据 挖掘 工具 在 易 用 性 方面 的 比较 


产 5 数据 装载 和 操作 | ”模型 建立 模型 理解 技术 支持 总 体感 觉 
SPSS Clementine T Akt PFPE FEF TT 
Darwin 十 十 十 十 rm H4 F4 
Enterprise Miner Tc Tc Tc 十 十 十 十 
Intelligent Miner Tc Tc Tc 十 十 十 十 
PRW 十 十 十 十 十 十 十 十 十 rum 
Scenario zr TL Td F4 | 


Œ: 十 ( 较 好 )，, 十 十 (好 ), 十 十 十 (非常 好 ) 


显然 它们 都 有 具有 较 好 的 易 用 性 ,但 还 是 有 些 差别 。 

SPSS Clementine, Enterprise Miner 和 PRW、Scenario 可 以 自动 读 入 数据 的 第 一 行 以 
决定 域名 和 数据 类 型 ,Darwin 必须 在 一 个 说 明文 件 中 注 明 ,而 Intelligent Miner 则 提供 对 
话 框 输入 。 各 种 工具 都 提供 对 列 的 操作 (如 创建 新 列 、 合 并 列 等 ) 和 对 行 的 操作 (如 取样 、 测 
试 集 和 训练 集 的 划分 等 ) 。 

与 研究 性 的 平台 相 比 ,可 视 化 是 商用 数据 挖掘 工具 着 重 考虑 的 方面 。Intelligent 
Miner, Enterprise Miner 和 Scenario 都 具有 图 形 化 的 展示 ,而 SPSS Clementine 和 Darwin 
则 提供 基于 文本 的 规则 说 明 。 此 外 ,对 于 柱状 图 、 饼 图 和 曲线 等 其 支持 程度 也 各 不 相同 。 
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4. 挖掘 自动 化 
这 里 的 挖掘 自动 化 是 指 产品 以 何 种 手段 使 用 户 完成 数据 源 选择 数据 转换 、 算 法 选择 和 
结果 保存 等 一 系列 步骤 之 间 的 衔接 。 各 种 常见 数据 挖掘 工具 支持 的 手段 如 表 5.6 所 示 。 


表 5.6 常见 数据 挖掘 工具 挖掘 自动 化 的 比较 


y* 品 对 自动 化 的 支持 
SPSS Clementine 支持 可 视 化 编程 和 编程 语言 
Darwin 支持 编程 语言 
Enterprise Miner 支持 可 视 化 编程 和 编程 语言 
Intelligent Miner 仅 提 供 向 导 界 面 ,不 支持 编程 
PRW 有 一 个 管理 组 件 , 支 持 宏 
Scenario 自动 化 支持 较 弱 ,很 多 过 程 需 手工 完成 


SPSS Clementine 和 Enterprise Miner 支持 的 可 视 化 编程 是 指 利 用 拖拉 搜 小 图 标 并 建 
立 连接 的 手段 描述 整个 过 程 ,而 IBM 的 Intelligent Miner 则 提供 一 个 向 导 使 用 户 在 每 个 步 
又 上 做 出 选择 。 

K 5.6 给 出 的 并 不 是 所 有 可 能 的 挖掘 自动 化 支持 手段 ,事实 上 有 许多 其 他 工具 包含 强 
大 的 脚本 支持 (CART、S-Plus 等 ),S-Plus 甚至 支持 C/C 十 十 编程 。 

上 述 常 用 的 数据 挖掘 工具 各 自 适 用 不 同 的 环境 。IBM 的 Intelligent Miner 在 市 场 上 比 
较 领 先 并 提供 良好 的 技术 支持 ; SAS 的 Enterprise Miner 明显 地 偏向 统计 (因此 更 适用 于 
统计 环境 ); 在 不 清楚 哪 种 算法 更 好 的 情况 下 UnicaPRW 是 较 好 的 选择 ; Cognos Scenario 
则 是 其 数据 仓库 系列 产品 的 重要 组 件 。 
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第 6 章 聚 类 分 析 


聚 类 分 析 (Clustering Analysis) 是 依据 事物 的 某 些 属性 将 其 聚集 成 类 。 使 类 间 相 似 性 
尽量 小 ,类 内 相似 性 尽量 大 , 即 “ 物 以 类 聚 , 人 以 群 分 ”。 

RÉK FF% (Classification) , 聚 类 是 一 种 无 监督 的 学 习 , 无 须 任何 先 验 知识 ,直接 
从 数据 对 象 中 发 现 有 意义 的 结构 ,输入 对 象 被 划分 到 一 个 未 知 的 类 ; 分 类 则 是 一 种 有 监督 
的 学 习 , 依 据 已 知 的 属性 值 对 对 象 进行 分 类 ,输入 对 象 被 划分 到 一 个 已 预先 定义 的 类 。 

聚 类 一 直 是 生物 学 \ 心 理学 、 医 学 、 考 古 学 、 图 像 处 理 , 市 场 营销 、 机 器 学 习 、 模 式 识别 、 数 
据 挖 掘 及 遥感 等 众多 工程 和 技术 领域 的 研究 热点 。 此 外 , 聚 类 还 可 以 用 作 独 立 的 数据 挖掘 
工具 ,以 了 解数 据 的 分 布 ,或 作为 其 他 数据 挖掘 算法 的 预 处 理 步骤 等 。 

聚 类 分 析 是 一 个 古老 的 问题 , 它 伴随 着 人 类 社会 的 发 展 而 不 断 深入 。 最 初 , 聚 类 是 统计 
学 的 一 个 分 支 ,如 经 典 的 多 元 统计 等 。 随 后 ,提出 了 依据 对 象 属性 值 的 相似 度 实现 聚 类 的 相 
似 聚 类 法 。 相 似 聚 类 法 又 分 为 系统 聚 类 (预先 不 确定 类 别 数目 ) 和 动态 聚 类 (预先 已 确定 类 
别 数目 )。 相 似 聚 类 法 有 着 广泛 的 应 用 ,但 同时 也 存在 一 些 不 足 之 处 。 从 本 质 上 说 ,相似 聚 
类 法 属于 上 下 文 无 关 的 聚 类 , 即 对 象 间 的 相似 性 度量 完全 依赖 于 对 象 本 身 的 属性 ,并 不 受 其 
上 下 文 的 影响 ,这 对 于 “静态 ”数据 的 聚 类 是 可 行 的 ,但 对 于 “动态 "数据 , 则 聚 类 结果 无 法 令 
人 满意 。 继 而 ,提出 了 环境 聚 类 法 , 旨 在 将 人 们 的 注意 力 从 客体 的 相似 性 推广 到 相似 性 以 
外 ,尽管 所 得 到 的 类 提供 了 更 多 的 信息 ,但 环境 聚 类 法 与 相似 性 聚 类 法 一 样 ,都 是 概念 无 关 
的 , 即 聚 类 结果 不 易 理解 。 为 了 克服 上 述 局 限 性 ,提出 了 概念 聚 类 ,使 聚 类 的 演化 过 程 发 生 
了 质 的 变化 。 从 概念 聚 类 的 角度 来 看 ,一些 对 象 之 所 以 聚 成 一 类 ,一 方面 是 因为 它们 在 某 些 
属性 上 彼此 相似 或 是 与 其 上 下 文 存在 某 种 内 在 的 联系 ; 另 一 方面 是 因为 这 些 对 象 聚集 在 一 
起 可 以 表达 某 一 概念 ,而 这 一 概念 所 表征 的 是 这 些 对 象 作为 一 个 整体 所 具有 的 共同 性 质 。 
概念 聚 类 由 两 个 搜索 过 程 组 成 : 在 概念 层次 空间 的 搜索 ,以 确定 较 理 想 的 概念 层次 结构 ; 
在 可 能 的 聚 类 空间 的 搜索 ,以 确定 较 合适 的 划分 以 及 在 概念 描述 空间 的 搜索 ,为 所 产生 的 聚 
类 赋予 较 合适 的 概念 描述 。 但 是 由 于 搜索 往往 采用 穷尽 法 或 仆 山 法 ,因此 存在 着 提高 搜索 
效率 或 避免 局 部 极 小 值 等 问题 。 

上 述 的 聚 类 方法 均 没 有 考虑 到 聚 类 的 目标 ,在 一 定 程 度 上 存在 * 答 非 所 问 ” 的 现象 。 实 
际 中 普遍 使 用 的 是 目标 聚 类 法 ,其 算法 简单 ,应 用 范围 广 , 并 且 可 以 转化 为 优化 问题 ,借助 于 
经 典 的 非 线性 规划 方法 求解 ,便于 计算 机 实现 ,因此 目标 聚 类 法 是 聚 类 研究 的 热点 。 

同时 , 聚 类 也 是 一 个 困难 的 问题 。 它 运用 数学 方法 研究 和 处 理 所 给 对 象 的 分 类 以 及 各 
类 别 之 间 的 亲 玖 程度 ,是 在 对 数据 不 做 任何 假设 的 前 提 下 进行 分 析 。 在 人 工 智 能 和 模式 识 
别 领域 , 聚 类 亦 称 为 无 先 验 学 习 或 无 监督 学 习 。 此 外 ,现实 世界 中 许多 事物 之 间 并 无 明显 的 
划分 ,彼此 之 间 的 关系 具有 一 定 的 模糊 性 和 不 确定 性 ,需要 将 模糊 集合 理论 引入 聚 类 , 即 所 
谓 的 模糊 聚 类 。 

按照 划分 的 结果 , 聚 类 可 分 为 硬 聚 类 和 软 聚 类 两 种 。 硬 聚 类 是 指 每 个 对 象 仅 属于 距离 
最 近 的 聚 类 中 心 所 属 的 类 , 即 非 此 即 彼 。 例 如 硬 c- 均 值 (Hard C-Means. HCM) 和 Kohonen 
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学 习 向 量 量化 (Learning Vector Quantization ,LVQ) 等 ; 软 聚 类 是 指 每 个 对 象 以 不 同 的 隶 
属 度 或 概率 属于 一 个 或 多 个 类 ,如 模糊 c- 均 值 (Fuzzy C-Means.FCM) 。 显 然 , 硬 聚 类 是 软 
聚 类 的 一 个 特例 。 

下 面 将 分 别 介绍 硬 聚 类 和 模糊 聚 类 。 


6.1 硬 聚 类 


6.1.1 概述 


至 今 , 聚 类 算法 已 有 上 百 种 之 多 ,而 且 还 有 许多 新 方法 在 不 断 涌现 。 概 括 而 言 , 聚 类 算 
法 主要 分 为 以 下 几 类 。 

1. 基于 划分 的 聚 类 算法 

给 定 一 个 包含 个 对 象 或 元 组 的 数据 集合 ,构造 数据 的 & 个 划分 ,每 一 个 划分 代表 一 个 
JE ,并 且 A 委 2"。 首 先 给 定 一 个 划分 数目 &, 划 分 方法 是 创建 一 个 初始 划分 ,然后 利用 迭代 ， 
通过 对 象 在 划分 间 移 动 以 改进 划分 。 为 了 达到 全 局 最 优 , 划 分 法 可 能 穷 举 所 有 可 能 的 划分 。 
实际 上 ,往往 采用 如 下 的 启发 式 搜索 方法 , 即 : 

(1) 上 均值 法 。 该 算法 中 每 一 徐 用 该 簇 对 象 的 平均 值 表示 ,使 所 有 对 象 到 聚 类 中 心 的 
距离 平方 和 最 小 。 

(D & 中 心 点 算法 。 该 算法 中 每 一 篮 用 接近 聚 类 中 心 的 一 个 对 象 表示 。 

上 述 两 种 方法 对 于 小 的 数据 集合 非常 有 效 。 为 了 处 理 大 规模 数据 集 , 出 现 了 CLARA, 
CLARANS 等 改进 算法 。 此 外 ,ISODATA 也 是 一 种 自动 地 进行 类 的 合并 和 分 裂 的 基于 划 
分 的 聚 类 方法 。 

基于 划分 的 聚 类 算法 适用 于 数据 集 为 凸 形 ( 见 图 6. 1) .类 间距 较 远 且 直 径 相 差 不 悬 殊 
的 情况 ,否则 会 出 现 错误 。 


^ | Ma 


(a) 凸 集 (b) 非 凸 集 
图 6.1 凸 集 和 非 凸 集 


本 质 上 ,概念 聚 类 是 划分 法 的 一 种 延伸 , 它 用 描述 对 象 的 一 组 概念 取 值 将 数据 划分 为 不 
同 的 类 ,而 不 是 基于 几何 距离 实现 数据 对 象 之 间 的 相似 性 度量 。 概 念 聚 类 能 够 输出 不 同类 
以 确定 其 属性 特征 的 覆盖 ,并 对 聚 类 结果 进行 解释 。 

2. 基于 层次 的 聚 类 算法 

基于 层次 的 聚 类 算法 是 指 对 给 定数 据 集 进行 层次 分 解 。 根 据 层次 形成 的 方式 ,层次 法 
分 为 凝聚 (Agglomerative or Merging) 和 分 裂 (Divisive or Splitting) 两 种 ,如 图 6. 2 所 示 。 

其 中 ,凝聚 法 是 指 首 先 将 每 个 对 象 作为 单独 的 一 个 簇 ,然后 相继 合并 相近 的 对 象 或 簇 ， 
直到 所 有 的 复合 并 为 一 个 ,或 者 满足 终止 条 件 ; 分 裂 法 是 指 首先 将 所 有 对 象 置 于 一 个 簇 中 ， 


= 凝聚 方式 


分 裂 方 式 


Er 
图 6.2 基于 层次 的 聚 类 中 的 凝聚 和 分 列 


通过 迭代 逐步 将 一 个 簇 分 橡 为 更 小 的 簇 。 

根据 不 同 的 簇 间 距离 度量 方法 ,基于 层次 的 聚 类 分 为 不 同 的 种 类 ,常用 的 度量 方法 包括 
最 小 距离 .最 大 距离 平均 值 距 离 和 平均 距离 等 。 

层次 法 无 须 参 数 , 但 需要 定义 终止 条 件 。 其 缺点 是 一 旦 一 个 步骤 (凝聚 或 分 型 ) 完 
成 , 则 不 能 被 撤销 。CURE、Chameleon 和 BIRCH 等 均 为 改进 的 基于 层次 的 聚 类 算法 。 其 
中 ,Chameleon 是 一 种 凝聚 的 层次 聚 类 算法 ,算法 实现 包括 两 个 阶段 , 即 首先 将 数据 集 划 
分 为 多 个 子 集 , 然 后 将 这 些 子 集 进 行 反复 的 合并 ,直至 获得 最 终 的 聚 类 结果 ,如 图 6. 3 


构建 稀疏 图 分 解 子 集 d 


数据 集 人 人 
E 


合并 子 集 
最 终 的 聚 类 结果 


图 6.3 Chameleon 算法 


CURE 算法 如 图 6. 4 所 示 , 其 中 s 二 50,p 二 2,s/p 二 25,g 二 5。 具 体 的 算法 步骤 如 下 : 
(1) 随机 选取 * 个 样本 。 

D 将 所 有 样本 划分 为 p 个 簇 ,每 个 簇 样本 数 是 s/p. 

(3) 将 每 个 簇 划分 为 g 个 子 集 , 每 个 子 集 样本 数 是 s/ pq. 
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(4) 删除 孤立 点 数据 。 

。 随机 取样 。 

。 如 果 一 个 簇 变 化 缓慢 , 则 删除 该 簇 。 
(5) 合并 其 中 的 部 分 子 集 。 
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6.4 CURE ik 


基于 层次 的 聚 类 算法 适用 于 具有 树枝 状 结构 的 数据 集合 。 

3. 基于 密度 的 聚 类 算法 

这 类 算法 的 思想 是 只 要 某 簇 邻 近 区 域 的 密度 超过 设 定 的 阔 值 ,就 扩大 簇 的 范围 ,继续 聚 
类 。 这 类 算法 可 以 得 到 任意 形状 的 簇 ,典型 算法 包括 DBSCAN (Density-based Spatial 
Clustering of Applications with Noise) .OPTICS 和 DENCLUE 等 。 

4. 基于 网 格 的 聚 类 算法 

基于 网 格 的 聚 类 算法 首先 将 问题 空间 量化 为 有 限 数目 的 单元 ,形成 一 个 空间 网 格 结构 ， 
随后 聚 类 在 这 些 网 格 之 间 进 行 。 其 特点 是 聚 类 速度 较 快 ,典型 算法 包括 STING, 
WareCluster 和 CLIQUE 等 。 

5. 基于 模型 的 聚 类 算法 

基于 模型 的 聚 类 算法 是 指 为 每 个 簇 假定 一 个 模型 ,寻找 数据 对 给 定 模型 的 最 佳 拟 合 。 
典型 算法 包括 COBWEB 和 神经 网 络 算法 等 。 

上 述 算法 属于 传统 聚 类 的 范畴 。 一 般 地 ,传统 聚 类 算法 对 于 维度 较 低 的 数据 集 有 效 ,而 
当 维 度 增加 时 ,可 能 就 不 适用 了 。 

针对 大 型 数据 库 的 聚 类 研究 已 提出 了 很 多 方法 。 例如 ,基于 随机 搜索 的 聚 类 方法 
CLARANS、 聚 焦 方法 和 聚 类 特征 树 法 BIRCH (平衡 迭 代 消 减 聚 类 法 ) 等 。CLARANS 要 求 
待 聚 类 的 对 象 必须 事先 调 入 内 存 , 这 对 于 大 型 数据 库 不 太 适 用 ; 聚焦 方法 通过 引入 R 树 , 能 
够 处 理 基于 磁盘 的 大 型 数据 库 ,但 是 R 树 的 构造 和 维护 代价 太 大 ; BIRCH 则 是 一 种 较为 灵 
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活 的 递增 式 聚 类 方法 ,采用 一 个 聚 类 特征 三 元 组 概括 一 复 对 象 的 相关 信息 ,从 而 以 对 应 的 聚 
类 特征 表示 一 篮 对 象 而 不 是 以 具体 的 一 组 对 象 表示 ,通过 构造 满足 分 支 因 子 和 簇 直 径 阔 值 
的 聚 类 特征 树 来 实现 聚 类 。BIRCH 算法 需要 提供 适当 的 参数 一 一 聚 类 个 数 和 簇 直径 阔 值 ， 
这 对 于 不 具有 可 视 化 的 高 维 数据 是 不 可 行 的 ,而 且 对 于 一 般 的 用 户 难以 确定 簇 直径 阔 值 。 
Agrawal 提出 的 CLIQUE 算法 , 自 顶 向 下 求 出 各 个 子 空间 的 聚 类 单元 。CLIQUE 算法 主要 
用 于 发 现 高 维 数据 空间 中 存在 的 低 维 聚 类 ,为 了 求 出 上 维 空间 的 聚 类 ,必须 组 合 出 所 有 一 1 
维 子 空间 的 聚 类 ,导致 其 算法 的 空间 和 时 间 效 率 都 较 低 ,而 且 要 求 用 户 输入 数据 空间 等 间隔 
距离 和 密度 闪 值 两 个 参数 ,这 些 参数 与 样本 数据 紧密 相关 ,用 户 一 般 难以 确定 。BDCLASD 
算法 的 基本 思想 是 根据 聚 类 中 心 的 最 近邻 距离 大 于 上 聚 类 外 点 的 最 近邻 距离 实现 聚 类 。 


6.1.2 相似 度 计算 


在 各 种 聚 类 算法 中 ,数据 对 象 之 间 特 征 差异 通常 是 借助 量化 的 指标 进行 表征 , 称 为 聚 类 
统计 量 。 聚 类 统计 量 包括 距离 或 相似 度 。 

一 般 地 ,数据 对 象 采 用 向 量 表示 , 即 通过 一 个 在 多 维 空间 中 的 向 量 描述 一 个 对 象 多 方面 
的 特征 。 向 量 的 每 个 维度 描述 对 象 的 一 个 特征 ,多 个 对 象 的 向 量 构成 一 个 模式 矩阵 
(Pattern Matrix) ,其 中 每 行 代表 一 个 对 象 ,每 列 描述 一 个 特征 , 即 (zx; )w «Hor m DESC. 
m 为 特征 数 ,z; 为 向 量 特征 值 。 由 于 不 同 的 特征 采用 不 同 的 度量 标准 或 尺度 ,这 将 对 聚 类 
结果 产生 影响 ,为 此 通常 进行 正规 化 ,使 所 有 的 特征 能 用 一 个 共同 的 标准 度量 。 以 下 是 一 些 
常用 的 正规 化 方法 : 

(1) A xim (6. D 

将 所 有 的 特征 归 一 化 到 [一 1,1] 区 间 。 

(2) 标准 差 正规 化 


ad, m H4 i (6.2) 
eh, y = ED aso; = 二 | > (zs 一 w)* ,可 使 正 态 分 布 的 特征 取 值 主要 集中 在 
[一 1,1] 区 间 。 
(3) zh = (6.3) 
O 


j 
is LS 

其 中 ,yp es w= 1 sj lo 
i=l i-1 


与 式 (6.2) 相 比 , 式 (6.3) 具 有 更 大 的 适用 范围 ,因此 受 噪 声 的 干扰 较 小 。 
(4) 极 差 正规 化 


xj — min {xs 
FE A Aa (6.4) 
" — maxízj )— min {xz} ? 
aea T dejas 


将 所 有 的 特征 归 一 化 到 Lo.1] 区 间 。 
正规 化 后 ,最 常用 的 对 象 间距 离 的 计算 公式 包括 : 


LOL 


ED2 I] 
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COD 欧 氏 距离 ,其 定义 为 : 

ds = J|xa— za |? + [xa — xz | ++ [zy — xl (6.5) 
其 中 ,三 (Czayze ,zp) 和 j 二 (zn ,Tio，… zao) 分 别 是 两 个 户 维 的 数据 对 象 。 
(2) 曼哈顿 距离 (又 称 绝对 距离 ) ,其 定义 为 ; 


di [za za | | za zj | bep ET zj | (6. 6) 
(3) 明 考 斯 基 (Mikulski) 距 离 ,是 欧 氏 距离 和 曼哈顿 距离 的 概 化 ,其 定义 为 : 
4, = [3 lea] (6.7) 
k-l 


其 中 yo. 

nn 个 对 象 彼此 之 间 的 相似 度 可 通过 相似 度 和 矩阵 (Similarity Matrix) (rs )m 表示 ,一 个 nX 
n 维 、 对 角 线 元 素 为 1 的 对 称 和 矩阵, 其 中 方 是 对 象 ; 和 j 之 间 相 似 度 的 量化 表示 ,通常 其 值 
是 非 负 的 。 对 象 i 和 j 关系 越 亲 密 , 其 绝对 值 越 接 近 于 1; 彼此 关系 越 玻 远 , 其 值 越 接近 于 
0。 对 象 之 间 常 用 的 相似 度 计算 公 式 包括 夹 角 余 弦 、 相 关系 数 和 指数 相似 系数 等 。 

CD 夹 角 余弦 


D tata 
rj = cosa; T—— (6.8 
1/2 
(2228 2245) 
其 中 Qij 为 向 量 (za List Lim fll (ji mj tmi ) 之 间 的 夹 角 。 
(2) 相关 系数 
25 | xa 一 五 | | zx 一 五 | 
AT : (6.9) 
[3 Gv - 2*5) (zu 一 五 2] 
k=1 k=1 
(3) 指数 相似 系数 
ry = mexp[-3 C] (6. 10) 
ci 4 Si 


为 了 实现 自动 聚 类 ,首先 定义 相似 度 度量 ,无 论 采 用 哪 种 度量 方法 有 一 点 是 明确 的 , 即 相 
似 度 的 度量 与 具体 问题 有 关 , 给 出 通用 的 度量 是 十 分 困难 的 。 例 如 ,采用 欧 氏 距离 度量 相似 度 
的 聚 类 是 将 聚 类 模式 看 作 若干 个 超 球体 的 集合 ,适合 于 数据 特征 空间 呈 超 球体 的 聚 类 。 实 际 
上 ,这 一 度量 方法 对 于 沿 主轴 分 布 的 情况 则 是 无 用 的 甚至 是 不 合理 的 。 又 如 ,实数 集合 的 聚 类 
结构 表现 为 超 椭 球体 ,因此 对 于 样本 分 布 呈 超 椭 球体 的 情况 ,常常 采用 Mahalanobis 距离 , 即 : 


DG.n) = G —m? 5j (6.1D 


Hop. 97 是 该 聚 类 群体 的 协 方差 矩阵 ,mm 为 平均 向 量 ,x 代表 该 聚 类 。 

采用 Mahalanobis 距离 的 主要 困难 在 于 : 每 当 改变 某 聚 类 范围 时 ,都 需要 计算 一 次 样 
本 协 方差 矩阵 的 逆 。 以 Mahalanobis 距离 为 相似 度 度量 的 自 组织 神 经 网 络 实现 分 布 呈 超 椭 
球体 的 聚 类 (Hyper-Ellipsoidal Clustering,HEC) 可 减少 计算 量 。HEC 分 为 两 层 : 第 一 层 
由 大 量 的 主 成 分 分 析 子 网 组 成 ,以 判断 当前 已 形成 的 分 布 为 超 椭 球体 的 聚 类 ; 第 二 层 则 是 
利用 第 一 层 所 提供 的 聚 类 信息 进行 竞争 学 习 。 该 方法 不 需要 计算 样本 协 方差 矩阵 的 逆 。 但 


是 , 若 学 习 参 数 选 择 不 当 , 则 实现 主 成 分 分 析 的 子 网 达到 收敛 需 要 较 长 的 时 间 。 
6.1.3 实现 方法 


聚 类 的 实现 方法 可 概括 为 三 种 。 
1. 基于 目标 函数 迭代 的 实现 
在 优化 目标 函数 的 过 程 中 ,人 们 曾经 尝试 过 动态 规划 、 分 支 定 界 和 凸 切割 等 方法 ,然而 大 
量 的 存储 空间 和 运行 时 间 限 制 了 其 应 用 。 实 际 应 用 最 为 广泛 的 是 Dunn 提出 的 迭代 优化 算 
法 一 一 大 均值 。 本 质 上 ,从 代 优 化 属于 局 部 搜索 的 “ 疏 山 法 ”, 易 陷 人 局 部 极 值 ,对 初 值 也 较 敏 感 。 
假设 将 7 个 样本 xz; ER G=1,2,…,n) 划 分 为 c 类 ,对 i==1,2,…,c 8j 1,2, n nf 
以 定义 : 
1, 如 果 第 j 个 样本 属于 第 i 类 


人 (6.12) 
WERE p= Gu; ) 具 有 如 下 性 质 : 
mE (0.1) HOT =i (Gud (6.13) 
i n 表示 第 ; 类 中 所 包含 的 样本 个 数 , 风 
m= 3n ides (6.14) 
Br ER 是 第 i 类 的 中 心 , 则 B 
五 = Zad = 1 Pe i= lmse (6.15) 
, t 
放 第 ;类 的 类 内 差 为 ， 
SO (py) = Sa l z; — z; I? (6. 16) 
整体 类 内 差 为 ， 5 
SQ = 3 s"qo 一 n l| z;— z; d (6.17) 


公式 (6. 17) 为 经 典 的 类 内 平方 误差 和 (Within-Group Sum of Squared Error. WGSS) H 

标 函 数 。A- 均 值 旨 在 通过 迭代 优化 寻找 jx; ,使 得 S(y) 取 最 小 值 , 即 : 
Siu* ) = min(SGo0j (6.18) 

由 公式 (6. 18) 可 知 , 当 各 样本 独自 成 为 一 类 时 , 即 c==n,S(y) 取 最 小 值 0。 因 此 仅仅 凭 
借 该 目标 函数 是 无 法 找到 最 优 分 类 的 ,必须 考虑 其 他 条 件 , 即 寻 找 一 个 合适 的 目标 函数 。 
k- 均 值 是 在 给 定 c 的 前 提 下 ,优化 S(y)。 因 此 ,对 聚 类 个 数 c 而 言 ,本 质 上 是 一 种 枚 举 法 。 

2. 基于 神经 网 络 的 实现 

采用 神经 网 络 实现 聚 类 的 显著 优势 在 于 神经 网 络 的 并 行 处 理 。 因 为 在 数据 量 庞大 的 情 
况 下 进行 聚 类 是 相当 耗 时 的 。 


=. 
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Kohonen 学 习 向 量 量化 和 自 组 织 特征 映射 在 经 典 模式 识别 领域 中 的 一 个 重要 应 用 就 
是 聚 类 。 近 年 来 ,Kohonen 受到 普遍 关注 ,然而 Kohonen 聚 类 网 络 (Kohonen Clustering 
Network,KCN) 启 发 式 的 演化 过 程 使 其 在 应 用 中 存在 着 网 络 收敛 依赖 于 输入 样本 顺序 以 及 
难以 保证 收敛 等 若干 致命 的 问题 。 一 些 学 者 基于 不 同 的 角度 和 背景 ,提出 了 改进 算法 ,但 仍 
存在 某 些 缺 陷 。 后 来 ,提出 了 一 种 用 于 超 椭 球体 聚 类 的 神经 网 络 , 它 能 自 适应 地 估计 每 一 类 
超 椭 球 体形 状 ,并 将 所 得 到 的 信息 用 于 竞争 学 习 , 通 过 引入 正规 化 的 Mahalanobis 距离 , 防 
止 过 大 或 过 小 类 的 产生 。 此 外 还 提出 了 一 种 带 惩罚 项 的 竞争 学 习 算法 。 

3. 基于 进化 计算 的 实现 

进化 计算 是 建立 在 生物 进化 基础 上 的 基于 自然 选择 和 群体 遗传 机 制 的 随机 搜索 算法 。 
由 于 具有 全 局 并 行 搜索 的 特点 ,因此 可 以 较 高 的 概率 获得 全 局 最 优 解 。 此 外 ,进化 计算 还 具 
有 简单 .通用 和 重 棒 性 等 优势 。 所 以 ,人 们 将 进化 计算 引入 聚 类 ,形成 了 一 系列 基于 进化 计 
算 的 聚 类 算法 。 它 们 大 致 可 分 为 两 类 : 一 是 基于 模拟 退火 (Simulated Annealing, SA) 的 方 
ik; 二 是 基于 遗传 算法 和 进化 策略 的 方法 。 

K 6.1 列 出 了 三 种 聚 类 实现 方法 的 比较 。 


表 6.1 三 种 聚 类 实现 方法 的 比较 


技术 指标 基于 目标 函数 迭代 的 实现 | ”基于 神经 网 络 的 实现 | 基于 进化 计算 的 实现 
搜索 方法 梯度 下 降 法 梯度 下 降 法 随机 搜索 法 
收敛 速度 较 快 快 慢 
算法 精度 高 较 高 受 编码 长 度 的 限制 
算法 结构 串 行 并 行 并 行 
初 值 敏感 度 敏感 敏感 不 敏感 
6.1.4 主要 算法 
下 面 介绍 主要 的 硬 聚 类 算法 。 


1. 基于 目标 函数 的 聚 类 

基于 目标 函数 的 聚 类 主要 包括 -均值 .k- 中 心 点 和 c- 均 值 等 算法 。 

D 有 -均值 

&- 均 值 也 称 为 硬 c- 均 值 .该 算法 首先 由 Mac Queen 提出 ,是 一 种 基于 划分 而 非 分 层 的 
聚 类 方法 。A- 均 值 的 基本 思想 是 : 首先 随机 地 选择 个 对 象 ,每 个 对 象 初始 地 代表 一 个 簇 
的 平均 值 或 中 心 。 对 于 其 余 的 每 个 对 象 ,根据 其 与 簇 中 心 的 距离 ,将 其 划分 到 最 近 的 得, 然 
后 重新 计算 每 个 簇 的 平均 值 。 此 过 程 不 断 和 迭代 ,直到 准则 函数 (或 称 为 相似 度 函 数 ) 收 敛 , 即 
公式 (6.19) 中 的 函数 值 最 小 : 

E= 2 peg Ib—m |? 6.19 

公式 (6.19) 中 ,E 是 所 有 对 象 的 平方 误差 和 ,m; 是 簇 C; 的 平均 值 ,p 是 空间 中 的 点 (p 
Lm; 都 是 多 维 的 ) ,此 准则 函数 试图 使 生成 的 簇 尽 可 能 地 独立 和 紧凑 。k- 均 值 是 将 n 个 对 
象 划 分 为 k 个 簇 , 使 簇 内 对 象 的 相似 度 较 高 ,而 簇 间 对 象 的 相似 度 较 低 。 

A- 均 值 聚 类 算法 的 步骤 如 下 : 


输入 : 聚 类 数目 ,包含 个 样本 的 数据 集合 


输出 : 各 样本 届 于 & 个 簇 的 信息 

(1) 随机 选择 个 样本 作为 初始 的 簇 中 心 ; 

(2) 将 剩余 的 2 一 A 个 样本 按照 与 簇 中 心 的 距离 划分 到 最 近 的 簇 ; 
(3) Repeat; 

(4) 计算 各 个 簇 中 样本 各 属性 的 平均 值 , 作 为 新 的 簇 中心 ; 

CO 重新 将 n 个 样本 按照 与 簇 中 心 的 距离 划分 到 最 近 的 簇 ; 

(6) Until. 簇 中 心 不 再 变化 。 


-均值 是 一 种 经 典 算法 ,其 主要 优点 是 算法 简单 ,快速 而 且 能 有 效 地 处 理 大 型 数据 。 但 


是 此 算法 对 不 同 的 初始 值 可 能 会 导致 不 同 的 聚 类 结果 ,执行 结果 与 输入 顺序 有 关 。 其 次 ,这 
种 算法 易 陷入 局 部 极 小 值 。 这 两 大 缺陷 大 大 限制 了 其 应 用 范围 。 

2) &- 中 心 点 

k- 中 心 点 是 对 -均值 的 改进 。 不 采用 簇 中 对 象 的 平均 值 作为 参照 点 ,而 是 选用 簇 中 位 
置 最 中 心 的 对 象 , 即 中 心 点 。 这 样 的 划分 方法 依然 是 基于 最 小 化 所 有 对 象 与 其 参照 点 之 间 
的 相 异 度 之 和 的 原则 进行 的 。 

k- 中 心 的 基本 思想 是 : 首先 为 每 个 簇 随机 地 选取 一 个 数据 样本 作为 中 心 点 ,将 剩余 的 
数据 样本 依照 距离 的 远近 分 配给 最 近 的 徐 ; 随后 选取 其 他 的 非 中 心 点 数据 做 中 心 点 ,并 查 
看 聚 类 情况 。 如 果 替 换 的 聚 类 总 代价 小 于 零 , 则 执行 替换 直到 中 心 点 不 再 发 生变 化 , 即 达到 
代价 最 小 值 时 算法 停止。 

和 -中 心 点 聚 类 算法 的 步骤 如 下 : 


和 输入: 聚 类 数目 ,包含 个 样本 的 数据 集合 

输出 : 各 样本 届 于 个 簇 的 信息 

(1) 随机 选择 个 样本 作为 初始 的 簇 中 心 点 ; 

(2) Repeat; 

(3) 将 非 中 心 点 的 样本 依照 与 各 簇 中 心 点 的 距离 划分 到 最 近 的 簇 ; 
(4) 随机 地 在 非 中 心 点 中 选择 一 个 样本 ; 

C) 计算 使 用 该 点 做 中 心 点 来 代替 原 中 心 点 的 代价 Ss 

(6) If S<0 Then 用 该 点 蔡 换 原 中 心 点 ,形成 新 的 簇 ; 

C) Until. 簇 中 心 点 不 再 发 生变 化 。 


3) c- 均 值 
c- 均 值 聚 类 算法 的 步骤 如 下 : 


输入 : 聚 类 数目 ,包含 个 样本 的 数据 集合 
输出 : 各 样本 属于 个 簇 的 信息 
(1) 随机 选择 个 样本 作为 初始 的 聚 类 中 心 cl ,cs nns 
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(2) 将 每 个 样本 向 量 z — [ance ct cu J HP n A e fit f E 3C. dz BEC B BS 
l| zx; —c; | — min 上 zi 一 cj | LAGE POH c; 的 类 ; 


P3 Tim 
C3) 重新 调整 聚 类 中 心 c , 令 ci 二 [ca ,ca ，… ,cij], 其 中 ci = ame, NN; 是 第 i 个 类 


别 中 的 向 量 数 ; 
(4) 如 果 步 又 (3) 中 的 聚 类 中 心 不 再 变化 , 则 算法 停止 ; 否则 , 转 至 步 又 (2)。 


2. 基于 神经 网 络 的 聚 类 

基于 神经 网 络 的 聚 类 主要 包括 竞争 学 习 (Competitive Learning) 和 自 组 织 映射 (Self 
Organizing Maps,SOM) 等 方法 ,都 涉及 竞争 的 神经 元 。 

1) 竞争 学 习 

前 馈 神经 网 络 的 竞争 式 学 习 规 则 是 由 Rumelhart 和 Zipser 提出 的 ,由 若干 个 单元 ( 神 
经 元 ) 组 成 层次 结构 ,以 一 种 “ 胜 者 全 取 ” 实 现 竞 争 。 竞 争 学 习 中 各 层 之 间 的 联接 是 激发 式 
的 , 即 在 某 个 给 定 层 次 的 单元 可 以 接受 来 自 低 一 层次 所 有 单元 的 输入 ,在 一 层 中 活动 单元 的 
布局 代表 了 高 一 层 的 输入 模式 。 在 某 个 给 定 层 次 中 ,一 个 簇 中 的 单元 彼此 竞争 ,对 低 一 层 的 
输出 模式 做 出 反应 。 任 何 复 中 只 有 一 个 单元 是 活跃 的 。 获 胜 的 单元 修正 其 与 篮 中 其 他 单元 
的 连接 权重 ,以 便 在 未 来 能 够 对 与 当前 对 象 相同 或 相似 的 对 象 做 出 较 强 的 反应 。 如 果 将 权 
重 看 作 一 个 标本 ,那么 新 的 对 象 将 被 划分 到 具有 最 近 标 本 的 簇 。 

聚 类 结束 后 ,每 个 簇 被 认为 是 一 个 新 的 “特征 ”, 代 表 对 象 的 某 些 规律 ,因此 产生 的 簇 可 
以 看 作 一 个 低层 特性 向 高 层 特性 的 映射 。 

2) SOM 

SOM 是 神经 网 络 最 重要 的 模型 之 一 ,是 1982 年 Teuvo Kohonen 基于 对 生物 神经 活跃 
区 域 的 模拟 提出 的 。 它 是 一 种 无 监督 的 聚 类 方法 ,通过 反复 学 习 和 若干 个 单元 的 竞争 实现 
聚 类 。 权 重 向 量 最 接近 当前 对 象 的 单元 成 为 活跃 或 获胜 的 单元 。 为 了 更 接近 输入 对 象 ,对 
获胜 单元 及 其 最 近邻 的 权重 进行 调整 。SOM 假设 在 输入 对 象 中 存在 一 些 拓扑 结构 或 顺序 ， 
单元 将 最 终 在 空间 呈现 这 种 结构 。 单 元 的 组 织 形 成 一 个 特性 映射 。SOM 被 认为 类 似 于 大 
脑 的 处 理 过 程 ,对 在 二 维 或 三 维 空间 中 可 视 化 高 维 数据 是 很 有 用 的 。 

SOM 由 输入 层 、 竞 争 层 和 输出 层 组 成 。 输 入 层 结 点 的 数目 同 输入 样本 的 特征 向 量 维 度 
相同 ,输出 层 的 每 个 结 点 都 是 一 个 含有 同 输入 层 结 点 个 数 相 同 维 数 的 向 量 。SOM 网 络 是 全 
连接 的 ,每 个 输入 结 点 都 与 所 有 的 输出 结 点 连接 。 

假定 输入 向 量 维 度 为 N, 输 出 结 点 数 为 M。SOM 算法 的 描述 如 下 : 

CD 建立 一 个 有 M 个 输出 结 点 的 二 维 网 格 ,初始 化 从 N 个 输入 层 结 点 到 M. 个 输出 层 
结 点 的 权 值 wi 为 [0,1j 之 间 的 随机 数 。 

(2) 输入 N 维 的 样本 向 量 。 

G) 计算 输入 向 量 在 时 刻 t 到 所 有 输出 结 点 的 距离 , 即 


d; = =F Gr, G) — wy (1))? (6. 20) 
其 中 ,wi 为 输出 结 点 的 权 值 ,zx; (是 输入 向 量 在 时 刻 t 的 值 。 


(4) 选择 获胜 结 点 并 更 新 它 和 邻近 结 点 的 权 值 。 

选择 产生 最 小 d; 的 结 点 为 获胜 结 点 j ,并 更 新 其 及 邻近 结 点 的 权 值 以 减 小 到 输入 向 量 
zx, CO IB ES BD. 

wg (2-1) = wg (t) dc aG) Gr (t) — ws Q0) (6. 21) 

每 次 更 新 后 ,j 及 其 邻近 结 点 都 会 更 接近 输入 向 量 x; (1)。a(t) 是 误差 调整 系数 ， 
0 二 a(z) 二 1, 并 且 随 时 间 单调 减 小 ,res 的 调整 也 越 来 越 小 ,直至 收敛 。 

SOM 以 其 无 监督 学 习 、 可 视 化 等 特性 ,广泛 应 用 于 聚 类 分 析 、 图 像 处 理 、 语 音 识别 和 组 合 
优化 等 众多 领域 。 然 而 ,传统 的 SOM 也 存在 着 许多 不 足 , 其 最 大 局 限 性 是 在 学 习 样 本 量 较 少 
时 ,网 络 连接 权重 的 初始 值 对 收敛 影响 很 大 ,而 且 聚 类 效果 取决 于 样本 的 输入 顺序 。 

3. 基于 进化 计算 的 聚 类 

基于 进化 计算 的 聚 类 大 致 可 分 为 两 类 : 一 是 基于 模拟 退火 (Simulated Annealing,SA) 
的 方法 。 确 定性 退火 技术 是 美国 的 K. Rose 博士 于 1990 年 首先 提出 的 ,已 得 到 了 一 些 比较 
满意 的 理论 结果 。 后 来 提出 了 一 种 利用 确定 性 退火 的 启发 式 聚 类 算法 ,把 聚 类 问题 看 作 是 

一 个 物理 系统 ,通过 求解 一 系列 随 温度 变化 的 自由 能 量 函数 的 全 局 极 小 获得 聚 类 的 最 优 解 。 
但 是 ,模拟 退火 算法 只 当 温 度 下 降 得 足够 慢 时 才能 收敛 到 全 局 最 优 ,大 量 的 运算 时 间 限 制 了 
其 实用 性 ; 二 是 基于 遗传 算法 和 进化 策略 的 方法 。 

常用 的 进化 算法 和 策略 包括 模拟 退火 、 遗 传 算法 、 蚁 群 算法 和 粒子 群 优化 算法 等 。 

1) 模拟 退火 

SA 算法 的 出 发 点 是 物理 中 固态 物质 的 退火 过 程 与 一 般 组 合 优化 问题 之 间 的 相似 性 。 
固态 物质 退火 时 ,通常 先 将 之 加 温 , 使 其 中 的 粒子 能 够 自由 移动 ,然后 逐渐 降低 温度 ,粒子 也 
逐渐 形成 低能 态 的 晶 格 。 若 在 凝结 点 附近 温度 的 下 降 速度 足够 慢 , 则 固态 物质 一 定 会 形成 
最 低能 量 的 基态 。 

SA 算法 中 固体 状态 对 应 组 合 优化 问题 的 可 行 解 ,最 低能 量 的 基态 对 应 最 优 解 ,逐渐 降 
低温 度 的 过 程 对 应 控制 参数 的 下 降 。SA 首先 由 某 一 较 高 初始 温度 开始 ,伴随 温度 参数 的 
不 断 下 降 重复 抽样 ,最 终 得 到 问题 的 全 局 最 优 解 。SA 包括 一 个 温度 持续 下 降 的 过 程 ,能 够 
避免 局 部 最 小 ,是 一 个 基于 概率 的 全 局 最 优 启发 式 方法 。 

在 温度 醋 时 ,由 当前 状态 i 产生 新 状态 j， aa Ms Æ E, E, fie 


受 新 状态 j 为 当前 状态 ; 否则 , 若 概率 exp[ - 5 T JAFO, 1) 区 间 内 的 随机 数 , 则 仍旧 


接受 新 状态 j 为 当前 状态 ; 若 不 成 立 , 则 保留 状态 i 为 当前 状态 。 e(- " 2 kN 
Boltzmann 常量 。 这 种 方法 使 得 能 量 为 E; 的 状态 成 为 当前 状态 的 概率 是 : 
exp(— E;/RT) (6.22) 
>, exp} E;/kT) i 

这 一 概率 函数 称 为 Boltzmann 浓度 ,其 特点 是 对 于 较 高 的 温度 ,每 一 状态 都 具有 相同 的 
概率 成 为 当前 状态 ,而 对 于 较 低 的 温度 .仅仅 那些 低能 量 的 状态 才 具 有 较 高 的 概率 成 为 当前 
状态 。 

标准 SA 算法 的 描述 如 下 : 


A) 随机 产生 一 个 初始 状态 Su ,Si= S, k—0. To = T. DAR ED 。 
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(2) 若 在 该 温度 达到 内 循环 停止 条 件 , 则 转 步 又 (3); 否则 ,从 邻 域 N(zi) 中 随机 选 一 状 


rendono 118 i S—S, 重复 
k 


态 Sj AE; — E, —0.J S =S; 否则 若 ex(— 
步骤 (2); 
(3) 退 温 Tr =d) kk 135; 若 满足 终止 条 件 , 停 止 计 算 ; 否则 转 步 又 (2) 。 
通常 设 Ts 一 100, 步 骤 (3) 中 的 退 温 函 数 d(。) 可 采用 
fue (6. 23) 
其 中 rz 为 一 个 小 的 时 间 常 数 。 
SA 算法 的 优点 是 : 
。 通用 性 强 ,能 够 处 理 任何 系统 和 费用 函数 ,即使 对 复杂 问题 SA 的 编码 也 相对 容易 。 
。 通常 可 保证 找到 问题 的 全 局 最 优 解 。 普 通 的 梯度 下 降 算法 总 是 向 改进 解 的 方向 搜 
索 , 这 种 “贪心 ”算法 往往 导致 只 能 找到 一 个 局 部 最 优 解 ,而 不 是 全 局 最 优 解 。 如 
图 6.5 所 示 ,SA 算法 中 ,在 系统 能 量 减少 这 样 一 个 总 的 趋势 下 ,允许 搜索 偶尔 向 能 
量 增 加 的 方向 搜索 ,以 避 开 局 部 极 小 ,最 终 能 够 稳定 到 全 局 最 优 状态 。 


" 


(a) 梯度 下 降 法 (b) SA 算法 
图 6.5 梯度 下 降 法 与 SA 算法 搜索 过 程 的 对 比 


SA 为 寻找 到 最 优 解 ,算法 通常 要 求 较 高 的 初始 温度 、 较 慢 的 降温 速率 、 较 低 的 终止 温 
度 以 及 各 温度 下 足够 多 的 抽样 ,因而 SA 算法 往往 优化 过 程 较 长 ,这 是 SA 算法 的 不 足 之 
处 。 因 此 ,在 保证 一 定 优化 质量 的 前 提 下 提高 算法 的 搜索 效率 ,是 改进 SA 算法 的 主要 

2) 遗传 算法 

遗传 算法 (Genetic Algorithm,GA) 由 Holland 在 1975 年 提出 ,更 早 的 思想 可 以 追溯 到 
20 世纪 60 年 代 。 典 型 的 GA 使 用 独立 于 问题 的 表示 形式 , 即 二 进 制 位 串 , 这 种 编码 既 适合 
于 变异 ,又 适合 于 交叉 ,并 且 强 调 交 又 算 子 的 搜索 能 力 。 随 后 , Holland 将 GA 引入 到 自 适 
应 系统 ,后 来 又 推广 到 其 他 领域 。 

GA 的 进化 对 象 是 由 多 个 个 体 (individuals) 组 成 的 种 群 (population) 。 在 初始 化 后 , 通 
过 基于 适应 度 的 概率 选择 算法 选择 父 代 ,并 通过 交叉 (crossover) 和 变异 (mnutation) 维 持 种 
群 的 多 样 性 。 如 此 演化 下 去 ,直到 满足 终止 条 件 。 

基于 自然 界 中 生物 遗传 与 进化 机 制 的 模仿 ,针对 不 同 的 问题 ,设计 了 多 种 不 同 的 编码 方 
法 来 表示 问题 的 解 空间 ,设计 了 各 种 遗传 算 子 来 模仿 不 同 环境 下 的 生物 遗传 特性 。 这 样 , 就 
由 不 同 的 编码 方法 和 遗传 算 子 构成 了 各 种 遗传 算法 。 但 它们 都 具有 共同 的 特点 , 即 通过 模 
仿生 物 遗 传 和 进化 过 程 中 的 选择 .交叉 和 变异 等 ,完成 对 问题 最 优 解 的 自 适应 搜索 过 程 。 基 
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于 这 一 共同 特点 ,Goldberg 总 结 出 了 一 种 最 基本 的 遗传 算法 一 一 基本 遗传 算法 (Simple 
Genetic Algorithm,SGA) 或 CGA(Canonical GA). SGA 只 使 用 选择 、 交 叉 和 变异 三 种 算 
子 , 其 遗传 操作 过 程 简单 、 容 易 理 解 , 是 其 他 一 些 遗 传 算法 的 基础 和 锥 形 ,不 仅 给 各 种 改进 的 
遗传 算法 提供 了 一 个 基本 框架 ,同时 也 具有 一 定 的 应 用 价值 。 
综 上 所 述 ,遗传 算法 和 其 他 进化 算法 相 比 的 显著 特征 是 使 用 交叉 算 子 产生 下 一 代 个 体 ; 
使 用 繁殖 选择 式 的 选择 算 子 、 根 据 适 应 度 随机 选取 父 本 ; 一 般 使 用 二 进 制 位 串 编码 及 相应 
的 交叉 算 子 。 
SGA 算法 描述 如 下 : 
随机 化 初始 种 群 P(0),t= 0. 
While( 不 满足 终止 条 件 ) do 
{ 
计算 所 有 个 体 的 适应 度 
计算 每 个 个 体 的 选择 概率 
均匀 随机 选择 p, * N 个 个 体 ,直接 插入 到 下 一 代 种 群 P(t+1) 中 . 
for(i=0; i«(1-p,) * /2; i++) 
{ 
根据 选择 概率 在 P(t) 中 选择 两 个 父 本 
r- random(0,1). 
1f r<P., 将 两 个 父 本 不 加 改变 地 插入 到 下 一 代 种 群 P(t+1) 中 
Else 
{ 
执行 重组 操作 ,产生 两 个 子 代 . 
按照 变异 概率 p. 对 两 个 子 代 执 行 变 异 操作 . 
将 其 插入 到 P(t+1) 中 
} 


) 


上 述 算法 中 包含 四 个 基本 参数 ,分 别 是 代 间 隔 ps 、 交 又 概 率 p.、 变 异 概率 pu, 和 种 群 规 
BN. 

概括 起 来 ,SGA Dg 9 3€ (148 

COD 染色 体 编 码 方法 

编码 (Coding) 是 将 问题 空间 中 的 点 映射 到 基因 空间 的 过 程 。 基 因 空 间 既 可 以 由 二 进 制 位 
串 表示 ,也 可 以 是 实 空间 R 的 一 个 子 集 。 当 基因 空间 的 编码 方式 为 位 串 时 ,也 称 为 染色 体 
(Chromosome) ,其 中 的 每 一 位 称 为 基因 (Gene) 。 基 因 的 取 值 范围 叫做 等 位 基因 (Allele) 。 

编码 方法 决定 了 基因 型 和 表现 型 之 间 的 转换 方法 , 某 些 特定 类 型 的 编码 方法 还 决定 了 
遗传 算 子 的 选择 。 编 码 的 好 坏 在 很 大 程度 上 决定 了 算法 的 优 劣 。 

编码 方案 取决 于 具体 的 问题 ,因此 目前 尚 没 有 一 定 的 理论 和 评价 原则 。 作 为 参考 ,De 
Jong 提出 了 两 条 操作 性 比较 强 的 编码 原则 : 
积木 块 原则 : 应 使 用 能 易于 产生 与 所 求 问题 相关 的 具有 低 阶 、 短 定义 长 度 的 编码 


方案 。 
。 最 小 字符 集 编码 原则 : 应 使 用 能 使 问题 得 到 自然 表示 或 描述 的 具有 最 小 编码 字符 
集 的 编码 方案 。 
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这 两 条 原则 具有 一 般 的 指导 意义 。 随 着 时 间 的 推移 ,使 用 的 编码 方式 也 越 来 越 丰富 。 
在 实际 使 用 时 ,还 需要 考虑 其 他 的 原则 。 尤 其 是 对 于 约束 优化 问题 ,一 种 方法 是 在 编码 时 避 
免 不 合法 个 体 的 存在 ,这 样 有 可 能 造成 编码 和 算 子 的 复杂 化 与 不 一 致 性 ; 另 一 种 方法 是 针 
对 不 合法 的 个 体 ,对 其 适应 度 加 以 惩罚 。 

(D 位 串 编码 

在 进行 编码 时 ,将 基因 看 作 一 个 有 序 的 位 串 序列 ,而 不 考虑 每 一 位 的 含义 。 这 种 编码 类 
似 于 生物 染色 体 的 组 成 ,使 交叉 和 变异 等 遗传 操作 很 容易 进行 。 

使 用 位 串 编码 时 ,二 进 制 编码 可 同时 表示 的 模式 数 最 多 。 并 且 实 现 简单 ,对 于 很 多 离散 
优化 问题 (如 背包 问题 等 ) ,基因 型 与 表现 型 的 对 应 关系 非常 明确 。 因 此 得 到 广泛 应 用 。 

对 于 连续 优化 问题 ,二 进 制 编码 的 主要 问题 是 : 相 邻 整数 之 间 的 Hamming 距离 可 能 很 
大 , 带 来 很 多 不 必要 的 局 部 极 值 点 ,影响 算法 的 搜索 性 能 。 这 一 问题 也 称 为 Hamming 悬崖 
(Hamming Cliff), 

克服 这 一 缺点 的 一 种 方法 是 使 用 Gray 编码 。Gray 编码 与 二 进 制 编码 的 对 应 关系 
如 下 : 


设 二 进 制 串 (B obert Bazi Ba) ,对 应 的 Gray Afi OM Or «y etm Yua Y, SUI: 
BER-I 
Y. — | (6. 24) 
Bea C fy Kf 
同样 
nd k-l 
及 一 | (6. 25) 
Yea 四 Xi: 其 他 


这 里 由 表示 模 2 加 法 , 即 异 或 操作 。 

Gray 编码 的 显著 特点 是 对 于 距离 为 1 的 二 进 制 表 示 ,其 Gray 编码 之 间 的 Hamming HE 
离 为 1。 因 此 可 以 在 一 定 程度 上 克服 上 述 缺 点 。 

@ 实数 编码 

当 问 题 空 间 是 实数 连续 空间 时 ,可 以 直接 采用 实数 进行 编码 。 对 于 实数 编码 ,从 理论 上 
讲 , 二 进 制 编码 的 各 种 遗传 操作 都 可 以 使 用 ,但 实际 应 用 时 通常 都 使 用 专门 针对 实数 编码 设 
计 的 算 子 。 从 进化 计算 的 历史 来 看 ,进化 策略 和 遗传 规划 都 采用 实数 编码 。 近 年 来 ,遗传 算 
法 在 求解 复杂 连续 优化 问题 时 也 经 常 使 用 实数 编码 。 实 际 上 ,使 用 实数 编码 的 遗传 算法 和 
进化 策略 的 区 别 已 经 越 来 越 小 。 

@ 结构 化 编码 

对 于 很 多 具有 明确 的 数据 结构 的 问题 ,更 加 自然 地 表示 是 直接 对 这 种 数据 结构 进行 操 
作 , 称 之 为 结构 化 编码 。 常 见 的 编码 方式 有 树 和 图 。 这 种 编码 方式 一 般 是 针对 具体 问题 设 
计 具 体 的 编码 和 遗传 算 子 ,很 难 具有 通用 性 。 对 于 由 Koza 提出 的 遗传 规划 (Genetic 
Programming) ,可 以 看 作 是 使 用 逆 波 兰 表 达 式 的 二 叉 树 作为 结构 化 编码 的 进化 算法 的 
例子 。 

对 于 SGA 最 常用 的 是 位 串 编码 ,即使 用 固定 长 度 的 二 进 制 符号 串 表 示 种 群 中 的 个 体 ， 
其 等 位 基因 是 由 二 进 制 符号 集 {0,1} 组 成 的 。 随 机 产生 N 个 初始 字符 串 ,每 个 字符 串 称 为 
一 个 个 体 (Individual) ,NN 个 个 体 构成 一 个 初始 种 群 。SGA 以 N 个 个 体 为 起 点 开始 迭代 。 


(2) 适应 度 函 数 

对 于 二 进 制 位 串 空 间 Q=[0,1],: 称 为 染色 体 长 度 。 称 问题 空间 中 的 点 为 表现 型 
(Phenotype) ,基因 空间 中 的 点 为 基因 型 (Genotype) 。 对 于 一 个 特定 的 基因 型 ,其 对 应 的 表 
现 型 的 优化 函数 值 称 为 适应 度 (Fitness)。 

适应 度 函数 表明 个 体 对 环境 适应 能 力 的 强 弱 , 是 自然 选择 的 唯一 参考 因素 。 

当 欲 求解 的 原始 问题 是 数值 优化 问题 时 ,可 以 直接 将 求解 函数 作为 适应 度 。 个 体 的 适 
应 度 取 值 通常 为 正 的 实数 值 。 一 般 情况 下 , 当 个 体 的 性 能 越 好 时 ,其 适应 度 值 越 大 ,而 且 要 
求 非 负 (如 GA 中 的 比例 选择 策略 ) 。 因 此 ,有 时 需要 对 原始 的 适应 度 函 数 进行 变换 。 

当 原 始 问题 是 非 数值 优化 问题 时 ,一 种 方案 是 选择 恰当 的 度量 函数 充当 适应 度 函 数 ,将 
某 个 可 行 解 的 适应 度 变换 到 正 实数 空间 ; 另 一 种 方案 是 使 用 不 基于 适应 度 函 数 具 体 数值 的 
选择 策略 。 如 排名 选择 和 锦标 赛 选 择 。 

在 很 多 情况 下 ,原始 的 适应 度 函 数 ( 及 其 简单 变换 ) 存 在 一 些 不 适合 选择 使 用 的 特点 。 
有 了 时 ,适应 度 值 之 间 的 差别 较 小 ,导致 选择 效果 不 明显 ; 有 时 ,优势 个 体 的 适应 度 值 过 大 ,可 
能 产生 早熟 收敛 。 在 这 些 情 况 下 ,需要 对 原始 的 适应 度 函 数 进行 某 种 变换 ,以 得 到 更 好 的 性 
能 。 这 种 变换 的 具体 形式 通常 是 通过 经 验 和 试验 获得 的 。 

SGA 算法 按 与 个 体 适 应 度 成 正比 的 概率 确定 当前 种 群 中 每 个 个 体 遗 传 到 下 一 代 种 群 
的 机 会 。 

(3) 遗传 算 子 

一 般 而 言 , 各 种 进化 算法 的 不 同 点 在 于 产生 新 个 体 与 选择 的 方式 不 同 。 这 种 方式 也 称 
为 算 子 (Operator) 。 进 化 算 子 可 以 分 为 两 类 : 选择 算 子 和 演化 算 子 。 在 有 些 算 法 的 具体 实 
现 中 ,这 两 种 算 子 是 混合 在 一 起 的 。 

选择 算 子 充当 自然 进化 中 自然 选择 的 角色 ,起 到 指引 搜索 方向 的 作用 。 其 目的 是 提高 
具有 较 高 适应 度 的 个 体 或 其 后 代 存 活 的 概率 。 通 过 选择 算 子 ,可 以 使 种 群 向 更 高 适应 度 的 
方向 前 进 。 不 同 的 选择 算 子 导致 不 同 的 选择 压力 (Selection Intensity)。 选 择 压 力 较 大 , 算 
法 的 收敛 速度 较 快 ,但 也 容易 导致 早熟 收敛 。 

选择 算 子 按照 选择 阶段 可 分 为 繁殖 选择 和 生存 选择 ; 按照 比较 范围 可 分 为 种 群 选择 和 
生境 选择 ; 按照 计算 方式 可 分 为 确定 性 选择 和 概率 性 选择 。 繁 殖 选择 指 通过 选择 确定 哪些 
个 体 可 以 用 来 产生 下 一 代 ; 生存 选择 指 通 过 选择 确定 哪些 个 体 可 以 存活 。 种 群 选择 指 选择 
是 在 整个 种 群 的 范围 内 进行 的 ,个 体 的 适应 度 要 和 整个 种 群 的 适应 度 分 布 进行 比较 ; 生境 
选择 指 选 择 是 在 两 个 或 几 个 个 体 (通常 具有 血缘 关系 ) 之 间 进 行 的 。 确 定性 选择 使 用 确定 性 
的 算法 进行 选择 ; 而 概率 性 选择 在 选择 过 程 中 引入 了 随机 性 的 因素 。 

演化 算 子 充当 自然 进化 中 繁殖 过 程 中 遗传 和 变异 的 角色 ,起 到 维护 种 群 个体 构 成 多 样 
性 (Diversity) 的 作用 。 它 包括 交叉 (Crossover) 和 变异 (Mutation) 两 种 。 交 叉 算 子 又 称 重 
组 (Recombination) 算 子 , 用 于 从 两 个 父 本 产生 一 个 新 的 个 体 。 演 化 算 子 在 进化 算法 中 起 到 
构造 的 作用 ,可 以 从 一 个 、 两 个 或 多 个 个 体 出 发 ,构造 出 新 的 个 体 。 其 目的 是 产生 和 维护 种 
群 的 多 样 性 ,同时 起 到 局 部 搜索 的 作用 。 

通常 SGA 使 用 以 下 三 种 遗传 算 子 : 

CD 选择 算 子 (Selection Operator? 

一 个 种 群 中 同时 有 N 个 个 体 存 在 ,这 些 个 体 哪个 保留 用 于 繁殖 后 代 ,哪个 被 淘汰 ,是 通 
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过 选择 过 程 实现 的 。 进 行 选择 的 原则 是 适应 度 大 的 个 体 为 下 一 代 贡 献 一 个 或 多 个 后 代 的 概 
率 较 大 。 选 择 体 现 了 “优胜 劣 汰 ”的 原则 。 

常用 的 选择 策略 包括 : 

。 基于 适应 度 比 例 的 选择 

。 基于 排名 的 选择 (Ranking Selection) 

在 使 用 基于 适应 度 比例 的 选择 策略 时 ,会 出 现 由 于 某 些 个 体 的 适应 度 过 大 而 导致 的 早 
熟 收 伊 。 同 时 这 种 方式 依赖 于 适应 度 函 数 的 具体 形式 ,对 于 某 些 应 用 而 言 ,影响 计算 的 收敛 
性 和 收敛 速度 。 

基于 排名 的 选择 策略 根据 个 体 在 整个 种 群 中 的 适应 度 的 好 坏 排 名 来 分 配 选 择 概率 ,可 
以 避免 上 述 问题 。 

这 种 算法 的 基本 形式 是 先 根据 所 有 个 体 的 适应 度 进行 排序 , 设 排序 后 的 次 序 .N。 然 


后 对 于 每 一 个 个 体 指定 一 个 选择 概率 函数 p. p; 只 与 i 有 关 , 与 fi AK: 且 满 足 =], 


以 及 对 于 i 是 单调 递减 的 。 
常见 的 选择 概率 函数 的 形式 有 线性 排名 和 指数 排名 两 种 。 


对 于 线性 排名 p= (6. 26) 
通常 取 a=1.1 
q(0—9)7! iN 
对 于 指数 排名 »-| (6. 27) 
(17-9) ,;j2N 


基于 排名 的 选择 策略 可 以 看 作 是 对 适应 度 函 数 的 一 种 自 适应 变换 ,只 不 过 这 种 变换 是 
动态 的 , 随 着 种 群 进化 而 变化 ,同时 只 与 适应 度 的 相对 值 有 关 , 而 与 其 绝对 值 无 关 。 

。 基于 局 部 竞争 的 选择 

以 上 两 种 方案 都 是 根据 个 体 在 整个 种 群 中 的 相对 地 位 决定 其 选择 概率 ,因此 需要 整个 
种 群 的 信息 。 当 种 群 规模 很 大 时 ,需要 一 定 的 额外 计算 量 。 同 时 也 不 利于 并 行 计 算 。 基 于 
局 部 竞争 的 选择 策略 可 以 在 一 定 程 度 上 解决 这 个 问题 。 

锦标 赛 选择 (Tournament Selection) 通 过 在 随机 选 出 的 若干 个 个 体 之 间 进 行 竞争 ,适应 
度 最 大 的 个 体 获得 优胜 ,从 而 被 选 出 产生 其 后 代 。 

© 交叉 算 子 (Crossover operator) 

对 于 选中 的 用 于 繁殖 的 个 体 ,随机 选择 位 置 ,交换 字符 串 左边 部 分 ,产生 新 个 体 ,新 个 体 
继承 了 其 父辈 的 特性 。 交 叉 体 现 了 信息 交换 的 思想 , 它 是 算法 的 核心 。 

交叉 算 子 的 具体 形式 和 基因 的 编码 方式 密切 相关 。 对 于 位 串 编码 ,最 简单 的 交叉 算 子 
是 单 点 交叉 ,也 有 复杂 一 些 的 多 点 交叉 和 均匀 交叉 算 子 。 

单 点 交叉 的 实现 如 下 : 随机 地 在 两 个 父 本 上 选择 一 个 交叉 点 ,然后 交换 这 两 个 串 对 应 
的 子 串 ,得 到 的 子 代 分 别 由 父 本 的 连续 的 一 部 分 构成 。 多 点 交叉 则 是 随机 生成 多 个 交叉 点 ， 
然后 间断 交换 父 本 中 对 应 的 子 串 。 均 匀 交 叉 则 是 依 概率 交换 父 串 中 的 每 一 位 。 

对 于 这 三 种 交叉 算 子 ,可 以 使 用 统一 的 形式 化 描述 : 

设 两 个 父 本 为 ji A jz, 存在 一 个 交叉 模板 m, 交 叉 后 的 子 代 分 别 为 : 

5 — Gi CQ sD O G2 Am), s; — (Gi 9 50 Q Gs Om) (6. 28) 


在 公式 (6. 28) 中 ,加 .四 和 浆 分 别 表示 二 进 制 的 与 . 异 或 和 补 运算 。 

如 果 m 的 结构 为 在 某 位 之 前 都 为 1, 其 后 都 为 0( 或 相反 ), 则 公式 (6. 28) 表 示 单 点 交 
X; 车 m 由 连续 的 0 串 和 1 串 混 合 而 成 , 则 表示 多 点 交叉 ; 而 m 的 一 般 形式 代表 均匀 交叉 。 

从 模式 的 角度 来 看 ,多 点 交叉 和 均匀 交叉 能 够 搜索 到 的 模式 更 多 ,具有 更 强 的 搜索 能 
Jj. IR SCHRIEB] ,多 点 交叉 和 均匀 交叉 的 作用 并 不 显著 。 

对 于 其 他 类 型 的 编码 方式 ,可 以 设计 出 不 同 的 交叉 算 子 。 在 实际 使 用 时 ,为 避免 致死 基 
因 (lethal gene) ,也 需要 对 交叉 算 子 进行 改进 。 实 际 上 ,很 多 特定 领域 中 使 用 的 GA 都 要 为 
之 设计 包含 领域 知识 的 交叉 算 子 。 

@ 变异 算 子 (Mutation operator) 

变异 操作 是 把 一 个 个 体 的 每 一 位 按照 概率 取 反 。 同 生物 界 一 样 ,GA 中 发 生变 异 的 概 
率 很 低 ,通常 取 值 在 0.001 一 0. 01 之 间 。 

在 二 进 制 编码 中 ,基本 的 变异 方式 就 是 将 某 一 位 或 某 几 位 进行 反 转 。 其 形式 化 的 描述 是 : 

设 父 代 的 二 进 制 编码 为 j, 存 在 一 个 变异 模板 m, 变 异 后 的 结果 为 : 

UGQ)= jm (6. 29) 
具体 地 ,存在 两 种 典型 的 变异 方式 : 1 一 比特 变异 和 c/ 变异 。 

1 一 比特 变异 指 按 照 变异 概率 确定 待 变异 的 个 体 后 ,均匀 地 从 中 选取 一 位 进行 反 转 。 也 
就 是 模板 中 只 有 一 位 是 1; c/ 变异 指 对 于 某 个 个 体 ,每 一 位 都 按照 概率 p, /L 确定 是 否 反 
转 。 一 次 变异 有 可 能 改变 多 个 位 。 

虽然 这 两 种 方式 实现 细节 不 同 . 但 都 具有 遍历 性 ,也 就 是 从 某 个 特定 的 基因 型 出 发 ,经 
过 有 限 次 欠 代 可 以 达到 任意 一 个 基因 型 。 

(4) 运行 参数 

SGA 算法 有 4 个 运行 参数 ,需要 预先 设 定 , 即 : 

* 种 群 数 目 N 一 一 种 群 数目 影响 GA 的 有 效 性 。N 太 小 ,GA 会 很 差 或 根本 找 不 到 
解 , 因 为 太 小 的 种 群 数目 不 能 提供 足够 的 采样 点 ; N 太 大 ,会 增加 运算 量 ,使 收敛 时 
间 过 长 。 一 般 种 群 数目 在 50 一 200 之 间 比 较 合适 。 
终止 条 件 一 一 一 般 选择 一 定 的 迭代 代数 或 适应 度 函 数值 达到 一 定 的 国 值 作为 终止 
条 件 。 
交叉 概率 p. 一 一 它 控制 着 交叉 操作 的 频率 ,决定 了 个 体 的 更 新 能 力 和 算法 在 解 空间 
的 搜索 能 力 。p. 太 大 ,会 使 优良 个 体 的 破坏 速度 过 大 ,造成 算法 性 能 的 不 稳定 ; p。 
太 小 ,种 群 在 进化 过 程 中 产生 具有 信息 的 新 个 体 的 速度 减 慢 , 搜 索 会 由 于 太 小 的 探 
查 率 而 可 能 停滞 不 前 。 一 般 p. 的 取 值 范围 为 0.25 一 0.75。 
变异 概率 p, 一 一 它 是 增加 种 群 多 样 性 的 搜索 算 子 。p,, 太 小 ,不 会 产生 新 的 基因 ; 
pm 太 大 ,会 使 GA 退化 成 随机 搜索 。 一 般 pm 取 值 范围 为 0.001 一 0.01。 

将 GA 应 用 于 聚 类 有 可 能 会 带 来 一 些 问题 ,如 编码 元 余 、 对 具体 问题 不 敏感 以 及 随机 搜 
索 最 优 解 等 。 为 了 克服 这 些 问 题 ,可 从 编码 方案 、 适 应 度 函 数 、 遗 传 算 子 和 运行 参数 等 几 个 
方面 对 SGA 算法 加 以 改进 。 作 为 进化 算法 中 最 具有 代表 性 的 算法 ,遗传 算法 以 其 简单 通用 
的 编码 技术 和 直观 有 效 的 进化 操作 得 到 了 广泛 的 应 用 。 目 前 的 遗传 算法 已 经 不 再 局 限于 二 
进 制 编码 。 最 近 很 多 的 应 用 尝试 使 用 其 他 的 形式 ,如 图 、Lisp 表达 式 、 有 序列 表 和 实数 向 
量 等 。 
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3) 蚁 群 算法 

群体 智能 (Swarm Intelligence,SD 是 一 种 人 工 智 能 技术 ,主要 探讨 由 多 个 简单 个 体 构 
成 的 种 群 的 集体 行为 ,这 些 个 体 之 间 相 互 作 用 ,个 体 与 环境 之 间 也 是 互 为 影响 。 尽 管 没 有 集 
中 控制 机 制 指导 个 体 的 行为 ,个 体 之 间 的 局 部 交互 也 能 够 导致 某 一 社会 模式 的 出 现 。 自 然 
界 中 此 类 现象 很 多 ,如 蚁 群 . 鸟 群 . 曾 群 和 蜂 群 等 ,由 这 种 自然 现象 引发 的 “ 群 类 算法 ”, 如 蚁 
群 算法 、 粒 子 群 算法 能 够 成 功 地 解决 现实 中 的 优化 问题 。SI 与 遗传 算法 有 共同 之 处 ,都 是 
基于 种 群 的 ,系统 从 一 个 由 多 个 个 体 ( 潜 在 解 ) 组 成 的 种 群 开始 ,这 些 个 体 模仿 昆虫 或 动物 的 
社会 行为 来 代 代 繁殖 ,以 寻求 最 优 。 不 同 于 遗传 算法 的 是 ,群体 智能 模式 不 使 用 交叉 和 变异 
这 些 进 化 算 子 ,个 体 只 是 根据 自身 与 种 群 中 其 他 个 体 . 与 周围 环境 的 关系 不 断 地 更 新 ,以 求 
得 最 优 。 

蚁 群 算法 是 模拟 自然 界 蚂蚁 竟 食 过 程 的 一 种 分 布 式 、 启 发 式 群 体 智能 算法 ,最 早 是 
1991 年 由 Colorni、Dorigo 和 Maniezzo 提出 ,用 于 求解 复杂 的 组 合 优化 问题 ,如 旅行 商 问 题 
(TSP) .加工 调度 问题 (JSSP) 和 图 着 色 问 题 (GCP) 等 。 

像 蚂 蚁 这 类 群居 昆虫 ,虽然 单个 个 体 的 行为 极其 简单 ,但 由 这 样 的 个 体 组 成 的 蚁 群 却 表 
现 出 极其 复杂 的 行为 ,能 够 完成 复杂 的 任务 ,不 仅 如 此 ,蚂蚁 还 能 适应 环境 的 变化 ,如 在 运动 
路 线 上 遇 到 障碍 物 时 , 蚂 蚊 能 够 很 快 重新 找到 最 优 路 径 。 那 么 蚁 群 是 如 何 寻找 最 优 路 径 
的 呢 ? 

人 们 通过 大 量 的 研究 发 现 , 自 然 界 中 的 蚂蚁 在 更 食 过 程 中 沿途 散播 一 种 化 学 物质 , 称 为 
信息 素 或 外 激素 (Pheromone) ,信息 素 中 记录 了 食物 源 的 远近 与 食物 量 的 多 少 ,而 其 他 蚂蚁 
通过 触角 能 够 检测 识别 到 这 种 信息 素 并 跟踪 ,从 而 最 终 找到 食物 源 。 而 当 大 量 蚂蚁 不 断 地 
从 蚁 穴 通 往 食 物 源 ,沿途 不 断 地 识别 原 有 信息 素 , 并 同时 散播 新 的 信息 素 , 使 得 越 短 的 路 线 
上 的 信息 素 浓度 越 高 ,将 最 终 找到 一 条 最 短 的 路 线 ,此 后 所 有 的 蚂蚁 都 将 走 这 条 最 短路 径 到 
达 食 物 源 。 


WUX 食物 源 
N F 
B B 
(a) 在 两 条 相等 路 线 中 选择 (b) 在 两 条 不 相等 路 线 中 选择 


6.6 SUELE EI ES EVE 


如 图 6. 6 Ca) Brz ,假设 从 蚁 穴 到 食物 源 有 两 条 等 长 路 线 NAF 和 NBF(NAF= NBF)。 
始 初时 ,两 条 路 线 上 都 没有 信息 素 , 各 个 蚂蚁 随机 选择 其 中 一 条 路 线 , 并 沿途 散播 信息 素 ; 
随 着 时 间 的 推移 ,各 路 线 会 挥发 掉 部 分 信息 素 , 也 不 断 地 增加 新 的 蚂蚁 带 来 的 信息 素 , 这 是 
一 个 正 反 馈 过 程 ; 后 来 的 蚂蚁 再 选择 路 线 时 ,浓度 较 高 的 路 线 被 选择 的 概率 较 大 ; 一 段 时 
Ti] Jr , 越 来 越 多 的 蚂蚁 会 选择 同一 条 路 线 ,而 另 一 条 路 线 上 的 蚂蚁 数量 越 来 越 少 , 且 其 上 的 
信息 素 逐 渐 挥发 殖 尽 。 

如 图 6.6(b) 所 示 ,对 于 两 条 不 等 长 的 路 线 NAF 和 NBFCNAF>NBF) 而 言 ,初始 时 两 


条 路 线 上 都 没有 信息 素 , 各 个 蚂蚁 随机 选择 其 中 一 条 路 线 , 即 有 的 选择 路 线 NAF, 另 一 些 选 
择 路 线 NBF, 并 沿途 散播 信息 素 , 两 条 路 线 上 的 蚂蚁 数 大 臻 相等。 假设 蚂蚁 的 行走 速度 相 
同 , 则 选择 走路 线 NBF( 较 短路 线 ) 的 蚂蚁 比 选择 走路 线 NAF( 较 长 路 线 ) 的 蚂蚁 先 到 达 食 
物 源 下 ; 当 走 路 线 NBF 的 蚂蚁 返回 蚁 穴 时 ,走路 线 NAF 的 蚂蚁 仍 在 途中 C 点 处 , 即 
2NBF 一 NAF 十 FAC。 可 以 看 出 .线段 NC 上 的 信息 素 要 少 于 别处 ; 下 次 蚂蚁 再 选择 路 线 
时 ,会 以 较 高 概率 选择 较 短 路 径 , 这 使 得 较 长 路 线 上 的 信息 素 浓度 越 来 越 低 , 较 短路 线 上 的 
信息 素 浓度 越 来 越 高 。 一 段 时 间 后 ,所 有 的 蚂蚁 都 将 选择 较 短 的 路 线 。 

蚁 群 算法 就 是 从 蚂蚁 疯 食 时 寻找 最 短路 径 的 现象 中 得 到 启示 而 设计 的 ,由 计算 机 编程 
实现 的 分 布 式 并 行 搜索 策略 。 蚂 蚁 通过 别 的 蚂蚁 留 下 来 的 信息 素 的 强 弱 作 为 自己 选择 路 径 
的 参数 ,信息 素 越 强 的 路 径 被 选择 的 可 能 性 越 大 。 信 息 素 的 更 新 策略 是 越 好 的 路 径 上 获 
得 的 信息 素 越 多 ,通过 这 个 正 反馈 寻找 更 好 的 路 径 , 这 是 蚁 群 算法 的 基本 原理 。 单 个 蚂蚁 
的 规则 相当 简单 ,但 是 通过 蚁 群 的 协同 工作 ,产生 对 复杂 环境 的 认 知 ,实现 对 解 空间 的 有 效 
搜索 。 

蚂蚁 疯 食 的 过 程 与 旅行 商 问题 非常 相似 ,下 面 通过 求解 个 城市 的 TSP 问题 为 例 说 明 
基本 的 蚁 群 算法 。 

首先 设 TSP 中 城市 i 与 城市 j 之 间 的 距离 为 dj «m 为 蚊 群 中 蚂蚁 的 数量 , CO E t 


时 刻 位 于 城市 ; 的 蚂 吉 数量 , 则 及 = DO. n ORF + 时 刻 弧 (7,j) 上 的 信息 素 量 。 


初始 时 刻 各 弧 上 的 信息 素 量 相等 ,mr (00 — C. C 为 常数 。 蚂 蚁 上 在 运动 过 程 中 ,根据 各 弧 上 
的 信息 素 量 决定 移动 的 方向 ,p$5 ORRE t WE Zap Le 由 点 i 向 j 移动 的 概率 。 
t Of £jeLO 


po = 2 c GO O) (6. 30) 


sE, D 
0. 否则 
其 中 J (让 表示 城市 i 上 的 蚂蚁 下 一 步 允 许 选择 的 城市 集合 。a 和 有 分 别 表示 蚂蚁 在 
移动 过 程 中 所 积累 的 信息 素 z(t) 及 启发 式 因子 p (2) 在 蚂蚁 择 路 时 的 重要 程度 。 表示 由 
城市 i 到 城市 的 期 望 值 ,可 模拟 某 种 启发 式 算法 具体 确定 。 另 外 , 蚁 群 算法 还 具有 记忆 功 
能 ,用 tab u (二 1,2,…,m) 记 录 蚂 蚁 当前 所 走 过 的 城市 ,集合 tab ui 随 进 化 过 程 进 行动 
态 调 整 。 随 着 时 间 的 推移 ,以 前 留 下 的 信息 素 逐 渐 挥 发 ,用 参数 1 一 o 表示 信息 素 挥 发 程度 ， 
经 过 /个 时 刻 , 蚂 蚁 完成 一 次 循环 ,各 弧 上 的 信息 素 量 的 调整 如 下 : 
ty @ +D = p° ty) + Aty (6.31) 


Ac; = D Ah (6. 32) 
=] 


ASRR k 只 蚂蚁 在 本 次 循环 中 留 在 弧 (i, j) 上 的 信息 素 量 ,Artij 表示 本 次 循环 中 弧 (i, j) 
上 的 信息 素 的 总 增 量 。 
Q, 车 第 上 只 蚂蚁 在 本 次 循环 中 经 过 弧 (i, 让 
Ad; = JLi (6.33) 
0, 否则 
其 中 ,Q 是 常数 ,Li 表示 第 k 只 蚂蚁 在 本 次 循环 中 所 走路 径 的 总 长 度 。 
此 模型 中 ,参数 Q,C,a,B.p 通常 由 实验 确定 其 最 佳 值 。 
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基本 蚁 群 算法 求解 TSP 问题 的 主要 步骤 如 下 : 

CD 迭代 次 数 nc—0; 各 三 和 Ar 的 初始 化 ; 将 m 个 蚂蚁 置 于 nn 个 顶点 上 。 

(2) 将 各 蚂蚁 的 初始 出 发 点 置 于 当前 解 路 线 集中 ; 对 每 个 蚂蚁 EUR 1.2. n0 TR 
式 (6. 30) 的 概率 芭 移 至 下 一 顶点 7; 将 项 点 j 置 于 当前 解 路 线 集中 。 

(3) 计算 各 蚂蚁 的 目标 函数 值 Zes 记录 当前 最 好 解 。 

(4) 按 更 新 方程 式 (6. 31) 和 (6. 32) 修 改 轨迹 强度 。 

G) 对 各 弧 (i, j), E Am 一 0,zc 一 mc 十 1。 

(6) E xc 所 预定 迭代 次 数 且 无 退化 行为 ( 即 找到 的 都 是 相同 解 ), 则 转 步 又 (2) 。 

FRW EAEAN Onc e m e n’), W TSP 问题 而 言 ,经 验 结果 是 , 当 m 约 等 于 nn 
时 ,效果 最 佳 ,此 时 的 时 间 复 杂 度 为 O(nc * ^D. 

基本 蚁 群 算法 的 优点 体现 在 以 下 几 方 面 。 

。 较 强 的 鲁 棒 性 : 对 基本 蚁 群 算法 稍 加 修改 , 便 可 以 应 用 于 其 他 问题 。 

。 分 布 式 计算 : 蚁 群 算法 是 一 种 基于 种 群 的 进化 策略 ,具有 并 行 性 ,易于 并 行 实现 。 

。 易于 与 其 他 方法 结合 : 蚁 群 算法 很 容易 与 多 种 启发 式 算法 结合 ,以 改善 算法 的 

性 能 。 

研究 证 明 蚁 群 算法 具有 很 强 的 发 现 较 好 解 的 能 力 , 这 是 因为 该 算法 不 仅 利用 了 正 反 馈 
原理 ,在 一 定 程度 上 可 以 加 快 进化 过 程 ,而 且 是 一 种 并 行 算法 ,不 同 个 体 之 间 不 断 进行 信息 
交流 和 传递 ,能 够 相互 协作 ,有 利于 发 现 较 好 解 。 

蚁 群 算法 也 存在 一 些 缺 陷 , 例 如 : 

。 搜索 时 间 较 长 : 与 其 他 算法 相 比 ,一 般 需 要 较 长 的 搜索 时 间 , 其 算法 的 复杂 度 可 以 

反映 这 一 点 。 

* 易 出 现 停 滞 现 象 : 当 搜 索 到 一 定 程 度 后 ,所 有 个 体 所 发 现 的 解 完 全 一 致 ,不 能 对 解 

空间 进一步 搜索 ,不 利于 发 现 更 好 的 解 。 

目前 , 蚁 群 算法 是 继 遗 传 算法 .模拟 退火 .禁忌 搜索 和 神经 网 络 等 热门 算法 之 后 ,新 加 入 
智能 启发 式 算法 这 一 行列 的 ,在 短 时 间 内 ,受到 越 来 越 多 的 关注 ,作为 通用 型 随机 优化 方法 ， 
通过 其 内 在 的 搜索 机 制 ,在 一 系列 困难 的 组 合 优化 问题 求解 中 取得 了 成 效 。 

4) 粒子 群 优化 算法 

粒子 群 优化 算法 (Patical Swarm Optimization. PSO) 最初 由 Kennedy 和 Eberhart 于 
1995 年 提出 ,是 一 种 基于 迭代 的 优化 方法 , 因 其 概念 简单 、 实 现 容 易 迅 速 引起 重视 。 目 前 已 
被 应 用 于 多 目标 优化 、 模 式 识别 、 信 号 处 理 和 决策 支持 等 领域 。 

PSO 最 早 源 于 对 乌 群 更 食 行为 的 研究 ,与 蚁 群 算法 同属 于 群体 智能 算法 ,是 从 个 体 的 
社会 行为 中 得 到 启示 ,是 对 简单 社会 系统 的 模拟 。PSO 算法 中 ,粒子 群 在 一 个 维 的 空间 
中 搜索 ,其 中 的 每 一 个 粒子 所 处 的 位 置 都 表示 问题 的 一 个 解 。 粒 子 通 过 不 断 调 整 其 位 置 X 
搜索 新 的 解 。 每 个 粒子 都 能 记 住 自己 搜索 到 的 最 好 解 , 记 作 Pa ,以 及 整个 粒子 群 经 历 过 的 
最 好 位 置 , 即 目前 搜索 到 的 最 优 解 , 记 作 Ps。 每 个 粒子 都 具有 一 个 速度 , 记 做 了 ,由 公 
RG. 34) 计 算 : 

V —w*Vga +m * randO * (Pa — Xa) + h * randO * (Pa — Xa) (6. 34) 
其 中 Vi 表示 第 i 个 粒子 第 d 维 上 的 速度 ,w 为 惯性 权重 ,六 和 为 调节 Pu 和 Pu 相对 重要 
性 的 参数 ,rand() 为 随机 数 生成 函数 。 这 样 , 可 以 计算 出 粒子 移动 的 下 一 位 置 为 : 


Xu = Xa 十 Va (6.35) 

从 公式 (6.34) 和 (6. 35) 可 以 看 出 ,粒子 的 移动 方向 由 三 部 分 决定 ,自己 原 有 的 速度 Va、 
与 自身 经 历 的 最 佳 距离 (Ps 一 Xa) 和 与 群体 经 历 的 最 佳 距离 (Ps 一 Xu ), 并 分 别 由 权重 系 
JC og 和 p 决定 其 相对 重要 性 。 

标准 PSO 算法 的 步骤 如 下 : 

CD 初始 化 粒子 群 , 即 随机 设 定 各 粒子 的 初始 位 置 X 和 初始 速度 V。 

(2) 计算 每 个 粒子 的 适应 度 值 。 

(3) 对 每 个 粒子 ,将 它 的 适应 度 值 和 它 经 历 过 的 最 好 位 置 Ps 的 适应 度 值 进行 比较 ,如 
果 更 好 , 则 更 新 Pao 

COD 对 每 个 粒子 ,将 它 的 适应 度 值 和 种 群 所 经 历 最 好 位 置 Ps 的 适应 度 值 进行 比较 ,如 
果 更 好 , 则 更 新 Pu 。 

(5) 根据 式 (6. 34) 和 式 (6. 35) 调 整 粒 子 的 速度 和 位 置 。 

(6) 如 果 达 到 结束 条 件 ( 足 够 好 的 位 置 或 最 大 迭代 次 数 ), 则 结束 ; 否则 转 步 骤 (2) 。 

PSO 是 一 种 进化 计算 方法 ,具有 以 下 进化 计算 的 典型 特征 。 

。 具有 一 个 初始 化 过 程 ,在 这 一 过 程 中 ,群体 中 的 个 体 被 赋值 为 一 些 随机 产生 的 初 

始 解 ; 

。 通过 产生 更 好 的 新 一 代 群 体 搜索 解 空间 ; 

。 新 一 代 群 体 产 生 在 前 一 代 的 基础 之 上 。 

目前 ,PSO 算法 在 很 多 连续 优化 问题 中 得 到 较 成 功 的 应 用 ,但 是 在 离散 域 上 的 研究 和 
应 用 还 很 少 。 


6.2 模糊 聚 类 


6.2.1 概述 


通常 地 , 硬 聚 类 是 指 将 包含 个 对 象 的 集合 划分 为 个 互 斥 的 类 , 聚 类 结果 可 表示 为 一 
^r nXE WIERE U= Cu) ,车 对 象 i 属于 类 人 , 则 us —1; 否则 wu 二 0。 为 保证 各 类 是 分 离 且 
非 空 的 ,wz 必须 满足 下 列 条 件 : 


K 
>) 一 1 i=l pesn 
k=1 


Jua >0 k—ldeeK (6. 36) 
i=1 


其 中 ,ua E (0.1) i1. n; k=1,*…,K。 
实际 上 , 互 斥 的 聚 类 在 实际 中 并 不 适合 .因此 提出 了 模糊 聚 类 ,与 硬 聚 类 的 本 质 区 别 
TET: 
a CoU. dimk enk (6.37) 
模糊 聚 类 (Fuzzy Clustering Analysis,FCA) 是 指 一 个 对 象 以 不 同 程度 属于 多 个 类 ,各 
个 类 之 间 的 界限 是 不 确定 的 。 其 本 质 是 不 仅 要 考虑 对 象 是 否 属于 该 类 ,而 且 要 考虑 属于 该 
类 的 程度 如 何 。 模 糊 聚 类 完全 不 同 于 所 谓 的 硬 聚 类 , 即 类 别 之 间 的 界限 是 明确 而 严格 的 。 
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1966 年 ,Bellman、Kalaba 和 Zadeh 首先 提出 以 模糊 集 为 基础 实现 聚 类 。 其 后 , Wee, 
Flake 和 Turner 及 Gitman 和 Levine 等 人 进行 了 一 些 尝试 性 探索 ,系统 地 阐述 模糊 聚 类 算 
法 的 是 著名 学 者 Ruspini。20 世纪 70 年 代 到 80 年 代 , 人 们 对 模糊 矩阵 及 其 传递 闭 包 等 问 
题 进行 了 大 量 研究 ; 到 20 世纪 90 年 代 , 尽 管 仍 有 人 从 事 这 一 方面 的 研究 ,但 由 于 这 类 方法 
不 适用 于 大 型 数据 集合 ,所 以 日 渐 冷落 。 后 来 人 们 试图 用 图 论 的 方法 研究 模糊 聚 类 , 1993 
年 Zhenggu Wu 和 Leathy 提出 最 优 图 论 的 聚 类 方法 。 在 将 硬 聚 类 推广 到 模糊 聚 类 方面 进 
行 了 大 量 的 工作 ,如 将 上 最 近邻 推广 到 模糊 聚 类 ,1986 年 Bezdek 等 人 将 模糊 c- 均 值 应 用 到 
A- 最 近邻 ,提出 了 一 种 模糊 人 -最 近邻 法 。 此 外 还 提出 了 其 他 一 些 模糊 聚 类 方法 ,如 1987 年 
Bezdek 和 Harri 利用 数据 集 的 凸 分 解 进行 模糊 聚 类 。 

由 于 种 种 原因 ,上 述 方法 的 应 用 并 不 广泛 。 实 际 中 ,受到 普遍 关注 的 是 基于 目标 函数 的 
模糊 聚 类 如 模糊 c- 均 值 等 。 

基于 目标 函数 的 模糊 聚 类 算法 首先 是 由 Ruspini 提出 的 ,随后 其 一 般 化 方法 一 一 模糊 
c- 均 值 及 其 收敛 性 被 提出 并 加 以 证 明 。 从 此 ,基于 目标 函数 的 模糊 聚 类 方法 得 以 迅速 发 展 ， 
目前 已 形成 了 庞大 体系 。 它 是 近年 来 发 展 很 快 的 一 种 聚 类 方法 。 其 目的 是 使 用 模糊 系统 解 
决 客观 世界 中 存在 的 界限 不 分 明 的 聚 类 问题 ,对 样本 进行 合理 的 模糊 划分 ,从 而 达到 判别 、 
分 析 和 预测 的 目的 。 

模糊 聚 类 的 研究 工作 大 致 可 分 为 两 类 : 

CD 通过 模糊 方法 得 到 模糊 结果 ,每 个 模式 以 不 同 的 隶属 度 从 属于 若干 个 类 。 以 
Bezdek 提出 的 模糊 -均值 为 代表 ,该 算法 收敛 于 部 分 最 优 ,存在 局 部 极 值 问题 。Al. Sultan 
等 人 采用 模拟 退火 算法 使 结果 收敛 于 全 局 最 优 ,它们 均 为 近代 算法 。 

(2) 通过 模糊 方法 得 到 确定 的 结果 ,每 个 模式 仅 从 属于 特定 的 类 ,如 Miyamoto 等 人 提 
出 的 算法 ,需要 反复 计算 分 类 对 象 之 间 的 模糊 相似 度 。 

目前 ,有 关 模 糊 聚 类 的 研究 大 多 是 对 模糊 c- 均 值 的 推广 与 改进 。 

大 致 地 ,模糊 聚 类 算法 包括 系统 聚 类 法 、 传 递 闭 包 法 、 最 小 支撑 树 ( 如 Prim 和 Kruskal 
算法 ) 动态 直接 聚 类 算法 ,模糊 c- 均 值 和 人 工 神经 网 络 等 。 

模糊 聚 类 中 ,数据 对 象 对 各 个 类 的 隶属 度 值 介 于 [0,1] 区 间 。 模 糊 聚 类 考虑 到 了 对 象 
之 间 的 联系 ,认为 每 一 对 象 与 各 聚 类 中 心 都 存在 着 一 定 的 隶属 关系 。 模 糊 聚 类 能 够 有 效 地 
对 类 与 类 之 间 存 在 交叉 的 数据 集 进 行 聚 类 ,所 得 的 聚 类 结果 明显 优 于 传统 聚 类 。 一 般 地 , 模 
糊 聚 类 要 求 每 一 对 象 对 各 类 的 隶属 度 之 和 为 1, 这 一 约束 是 对 划分 情况 的 概率 约束 。 但 是 ， 
这 一 约束 无 法 反映 对 象 的 典型 性 ,对 含有 噪声 的 数据 集合 的 聚 类 很 不 理想 ,与 传统 聚 类 相 
比 ,通常 模糊 聚 类 算法 的 收敛 速度 要 慢 。 

模糊 聚 类 方法 已 被 广泛 应 用 到 数据 挖掘 、 模 式 识别 、 机 器 学 习 以 及 决策 支持 等 领域 。 例 
如 可 依据 “体重 /身高 ”", 把 人 分 成 “ 胖 人 集 ”、“ 不 胖 不 瘦 集 ”和 “ 瘦 人 集 " 等 ; 对 超市 可 根据 “月 
底 销售 数量 /月 初 库存 ”, 确 定 出 “畅销 商品 集 ” 与 滞销 商品 集 ”, 并 进一步 分 析 在 同一 类 别 内 
的 商品 之 间 的 销售 相关 性 ,以 支持 营销 决策 等 。 此 外 ,模糊 聚 类 还 可 应 用 到 对 多 维 图 像 的 识 
别 与 分 割 、 天 然 中 草药 分 类 等 。 

设 数据 集合 为 处 二 {x1 ,Xz ，… Tn} Vn EX HR zx; 二 (za Tzs ,Xip ) ,Ta 表示 第 i 
个 对 象 的 第 & 个 属性 。 模 糊 相 似 和 矩阵 (Fuzzy Dissimilarity Matrix ) (rj ),x, 用 于 存储 n 个 对 
象 彼此 之 间 的 模糊 相似 度 .是 一 个 nxn 维 的 对 角 线 元 素 为 1 的 对 称 和 矩阵 , 即 : 


fa Gu Yu 9 d 
常用 的 计算 模糊 相似 度 的 方法 包括 : 
(1) 数量 积 法 


Li-j 
"e ls dx j 
其 中 , M = mo Szara) 。 如 果 方 为 负 值 , 可 用 公式 (6. 40) 修 正 。 
TI Nk=l 


令 5-059, 


2 
(2) KARZE 


m 
D tata 
k=1 


(3) 统计 相关 系数 法 


k=1 


Mos — xg F) 


zi m m 
Er Ga — Zi)? [Xe 一 五 ) 
k-1 k=1 


其 中 ， Ti == zl Tj = 让 
(4) 最 大 最 小 法 


(5) 算术 平均 法 


(6) 几何 平均 最 小 法 


.38) 


.39) 


.40) 


.41) 


.42) 


.43) 


.44) 


.45) 
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(7) 绝对 值 指数 法 


ne (6.46) 
C8). 指数 相似 系数 法 
n = letum (6.47) 
m = 
(9) 绝对 值 倒 数 法 
1 
——— (6.48) 
2) | zz EET | 
k=1 
适当 选取 M, 使 r; € [0.1]. 
(10) 绝对 值 减 数 法 
eb scum (6.49) 
k=1 
适当 选取 c, 使 ry € [0,1]。 
6.2.2 主要 算法 
下 面 介绍 几 种 主要 的 模糊 聚 类 算法 。 
1. 模糊 c- 均 值 


目前 ,模糊 聚 类 算法 中 应 用 最 广泛 而 且 较 成 功 的 是 1974 年 由 Dunn 提出 并 由 Bezdek 


加 以 推广 的 模糊 c- 均 值 (Fuzzy C-Means,FCMD 。 


[z] 


假设 待 聚 类 样本 数 为 n, 聚 类 数 为 c, 特 征 数 为 s, 则 有 如 下 定义 : 
定义 6.1: 样本 集 X — Cn ors et ,xz,} 是 任 一 有 限 集 ,XCR',V。 是 c Xn 阶 实 和 矩阵 的 集 


fc 是 整数 (2 三 c<n), 则 称 下 述 集合 为 X 的 模糊 c- 均 值 划 分 空间 : 


Me = {U € V, |0 < ua < L Vik Dua =1, Yeso Yu, <n. V (6. 50) 


其 中 ua 是 隶属 度 和 矩阵 UE MA 的 fT k IER, 表示 x. m^ 的 隶属 度 值 。 
定义 6.2: 设 u CR 是 类 别 i 的 聚 类 典范 值 ( 中 心 ) 向 量 , 定 义 c 聚 类 典范 值 矩 阵 为 : 


V = (wsus )T (6.51) 
模糊 c- 均 值 的 目标 函数 J。 定义 为 : 
J,Q.V) = ED (ua)™ (da)? (6.52) 


k=1 i=1 


HP da) S d x—9wl*.] * | 4E R 上 任 一 内 积 导出 的 范 数 ; m 称 加 权 指 数 ， 


mE [1,co)。 


隶 


EL 
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目标 函数 的 值 是 样本 数据 到 c 聚 类 典范 值 的 平方 距离 的 加 权 累 计 和 ,权重 由 m 和 模糊 
属 度 函数 值 共 同 确定 。J 反映 在 某 种 差异 性 定义 下 的 类 内 紧 致 度 。J。 越 小 , 聚 类 越 紧 
而 m 越 大 , 紧 致 度 的 模糊 性 越 大 ,因为 m 控制 隶属 度 在 各 类 之 间 共 享 的 程度 。 
FCM 算法 步骤 如 下 : 
CD 设 定 迭代 停止 阅 值 e 为 一 个 小 的 正 数 ; 初始 化 迭代 次 数 为 /二 0 MUO ; 


D 将 0 代入 公式 (6. 51) 计 算 c- 聚 类 典范 值 矩阵 Vo 
Cua 2" r, 
v= = 
29 Cua)” 
k=1 
(3) 利用 V" 更 新 U" ,其 过 程 如 下 ， 
V 样 本 n ,计算 类 别 标号 的 集合 : 到 = L| 1i esda —0) M= (0.2.70) — L5 
如 果 L = (9. ua 1 (6.54) 


€ 


p3 (da /dx Jm 
j=1 


Vi (6.53) 


否则 ua —0, Vi € HAD u —1 (6.55) 

选用 合适 的 矩阵 范 数 比较 UO fr UVP Lan (UT? —UO ) e, , 则 停止 迭代 ; 否则 /一 
/十 1, 返 回 步骤 (2) 。 

在 FCM 算法 中 ,模糊 指数 m 的 取 值 是 关键 问题 。m 值 越 大 , 聚 类 的 范围 越 大 ,隶属 函 
数 的 模糊 程度 越 大 。 当 m 趋 近 1 时 ,FCM 相当 于 硬 c- 均 值 聚 类 算法 ,所 以 m 不 应 该 趋 近 1 。 
目前 还 没有 发 现 确 定 合 适 m 的 方法 。 对 于 FCM ,根据 经 验 一 般 取 1.1 三 M5。Pal 等 人 从 
聚 类 有 效 性 方面 研究 得 到 m 的 最 佳 取 值 区 间 为 [1.5,2. 5], 且 一 般 闷 一 2。 

FCM 的 本 质 是 使 聚 类 中 所 有 样本 到 聚 类 中 心 的 距离 平方 和 最 小 。 通 过 优化 模糊 目标 
函数 得 到 每 一 样本 对 类 中 心 的 隶属 度 。 但 是 ,FCM 有 时 会 收敛 到 局 部 极 小 值 ,这 限制 了 
FCM 算法 的 应 用 。 

2. 模糊 关系 传递 闭 包 

HA n PER U= (Ca ,zs，…,x,), 其 中 每 个 样本 具有 m 个 特征 , 即 c; — Gra smt 
Zzm)。 利 用 多 元 分 析 方 法 建立 样本 之 间 的 模糊 关系 R:UXU 一 [0,1], Gc) ER 的 程度 通 
常用 隶属 函数 jr Ci sm; RIR ,yr (zi ,zj) 被 称 为 zx; 和 zz; 的 相似 度 ,满足 0<jyr (xi,zj) 三 1， 
pg Gri xj) — pg Grj xi). ug Crziyzi) 越 大 ,两 者 的 相似 度 越 高 ,定义 pg Grim) l.i]. 
2,…,n。 模 糊 关 系 的 确定 采用 距离 法 ,例如 切 比 雪夫 距离 tn Gri 2) 7 1— max | xa a ls 
其 中 c 表示 一 个 常数 ,或 者 海 明 距离 、 欧 氏 距 离 和 相似 系数 等 。 由 n 个 样本 之 间 的 模糊 关系 
形成 一 个 2X7 BIER — Qu, Gri Tj) nen ERR ARRERA E E o 

设 UV 和 W 分 别 表 示 三 个 论 域 , 若 RR、S 分 别 为 UXV 和 VXW 上 的 模糊 关系 ,定义 关 
系 的 合成 R*S HUXW 上 的 模糊 关系 ,其 隶属 度 函 数 定义 为 : 

ApR.s(Zyz) = {max{min [pa (zy) us Cy» 22] }} (6.56) 

其 中 ,VzEU,VzEW。 | 

ER EU KIRIK. FWE R RER., MER OVES FERIA. 

若 模糊 相似 矩阵 R 满足 传递 性 , 则 称 R 为 等 价 关 系 。 对 任意 的 cE[0,1], 集 合 R= 
(Ge «32 | pa Gr 32 Za EROS R 的 a- 截 集 .a KARRE. ER 为 模糊 等 价 关系 , 则 对 任意 
a€[0.1].R, 也 为 模糊 等 价 关系 ,有 时 称 R 为 w- 截 矩阵 。 若 R 为 等 价 矩 阵 , 则 VzEU， 
[z]= y | in 1y) Za] HIR U 相对 于 阔 值 w 的 模糊 聚 类 。 
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模糊 相似 矩阵 R 的 传递 闭 包 是 指 包含 R 的 最 小 模糊 等 价 矩阵 。 利 用 平方 法 可 以 求 得 
模糊 相似 矩阵 的 传递 闭 包 。 

定理 6.1: 设 尺 为 ” 阶 模糊 相似 矩阵 , 则 存在 一 个 最 小 自然 数 EGR<7z) ,使 得 传递 闭 包 
tQ0 —R' BOXE—ULEACT. k BL ARAL EA RSR. 

定理 6. 1 说 明 从 模糊 相似 矩阵 玉 开 始 ,依次 计算 R^ LR! LR* EAH R - R'oR' 时 ， 
R* 就 是 传递 包 t(R)。 设 R 和 S 为 模糊 相似 矩阵 ,R= Cry nxn S— Gu M R* S— 


Gus SEP sty =V GaAs). 
基于 模糊 关系 传递 闭 包 的 模糊 聚 类 算法 的 步骤 如 下 : 
CD 确定 集合 X={ziyzz，…z} 上 模糊 相似 矩阵 R RI A CE BIG a s 
(2) 采用 自 乘法 将 R 按 如 下 计算 构造 为 一 个 模糊 等 价 窍 阵 ; 
R*-R—R 
R -R = R' 


FESVEETE k WE R^ — R' AU R* BIOS — AR SE E E o 
(3) PRRD EAE PETI] a— WIERE Ra = (Tija nxn o H. 


0 ry <a 
(4) 输出 模糊 聚 类 结果 , 即将 a 截 窍 阵 中 相同 行 的 样本 归 为 一 类 ,表示 为 
[x] Gy| R" Gr.30Z2) 
O) 若 满足 聚 类 终止 条 件 , 则 停止 ; 否则 ,改变 截 集 阔 值 c, 转 至 步骤 (2) 。 
该 算法 中 将 模糊 相似 矩阵 改造 成 模糊 等 价 矩 阵 采 用 自 乘 法 ,计算 时 间 较 长 ,算法 计算 复 
杂 度 为 OG logan) o 
3. 最 小 支撑 树 
最 小 支撑 树 算法 的 步骤 如 下 : 
(1) 建立 模糊 相似 矩阵 ; 
(2) 构建 最 小 支撑 树 ， 
G) RŽ, 
典型 的 最 小 支撑 树 算法 包括 Prim 法 和 Kruskal 法 。 
设 待 聚 类 对 象 集合 为 {1,2,3,4,5} ,给 定 如 下 的 模糊 相似 矩阵 : 
1 
0.1 1 
R=|0.8 0.1 1 

0.5 0.2 0.3 1 

0.3 0.4 0.1 0.6 1 
1) Prim 算法 
(1) 先 取 对 象 1, 在 对 象 2.3、4 和 5 中 , 找 出 与 对 象 1 相似 度 最 大 的 ,可 得 
0. 8 二 R(1,3) ,得 到 : 

0.8 


1—3 
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在 对 象 2.4 和 5 中 ,找到 与 对 象 1 相似 度 最 大 的 0. 5 一 R(1,4) , 找 出 与 对 象 3 相似 度 最 
大 的 0. 3 —RG.4) . E 0.5770. 3. POTA 4.148]: 


0.5 0.8 


4 一 ~] 一 一 3 


再 在 对 象 2 和 5 中 , 找 出 与 对 象 1.3 和 4 相似 度 最 大 的 0.6— ROL50 ,得 到 : 


0.6 0.5 0.8 
9—c54 —*1—-3 


最 后 , 找 出 对 象 2 与 1.3、4 和 5 之 间 相 似 度 最 大 的 0. 4— RO 50 ,得 最 小 支撑 树 , 即 


0.4 0.6 0.5 0.8 
Z——5——4 —»]—3 


(2) 取 AE[0,1], 砍 断 连 接 权重 小 于 、 的 枝 , 可 以 得 到 一 个 不 连通 的 图 ,而 各 连通 分 支 
就 构成 了 4 水平 上 的 分 类 。 

若 取 XAE[0,0. 4], 则 只 得 一 类 {1,2,3,4,5); Æ AE (0.4,0.5), 则 得 两 类 {2}、{1,3， 
4,5); 3H AC (0.5,0.6), 则 得 到 三 类 {2)、{4,5} 和 {1,3}; 若 取 AE(0.6,0.8), 则 得 四 类 
{2}、{5}、{4} 和 {1,3}; 若 取 XE (0.8,1), 则 得 五 类 {1}、{2}、{3}、{4} 和 {5}。 

2) Kruskal 算法 

CD EE R 的 非 主 对 角 线 中 找到 最 大 元 0. 8 一 R(1,3) ,得 到 : 


0.8 


3—1 

再 找 次 最 大 元 0. 6—RG 50 ,得 到 : 
0.8 0.6 

3—1 4—5 


而 后 找到 0. 5— RC 4D ,得 到 : 


0.8 0.5 | 0.6 
3—91— —95 


最 后 得 到 0. 4— RC 50 ,至 此 所 有 顶点 都 被 连 到 , 且 不 含 圈 ,得 到 最 小 支撑 树 , 即 


0.8 0.5 0.6 0.4 


3—]—4—5——2 
(2) [i] Prim 算法 中 的 步骤 (2) 。 
采用 上 述 两 种 方法 所 得 的 最 小 支撑 树 可 能 不 同 ,但 可 以 证 明 其 聚 类 结果 相同 。 其 中 ， 


Prim 算法 的 计算 复杂 度 最 多 为 o(87 ] ,Keuskal 算法 的 计算 复杂 度 最 多 为 OG logan) 。 


6.3 评价 


聚 类 分 析 是 一 种 无 监督 的 学 习 , 事 先 对 给 定数 据 集合 的 结构 一 无 所 知 ,没有 利用 任何 先 
验 知 识 。 无 论 采用 哪 种 聚 类 算法 ,其 聚 类 结果 的 合理 性 和 有 效 性 都 有 待 评价 。 聚 类 有 效 性 
评价 对 聚 类 分 析 具 有 重要 意义 。 对 于 相同 的 数据 集合 ,采用 不 同 的 聚 类 方法 ,可 能 得 到 不 同 
的 聚 类 结果 。 即 便 是 采用 同一 种 聚 类 方法 , 若 初始 参数 (如 聚 类 数 、 聚 类 中 心 等 ) 选 择 不 同 也 
可 能 会 得 到 不 同 的 结果 。 例 如 ,采用 同一 种 -均值 聚 类 算法 对 同一 个 Wine 测试 数据 集 ( 来 
自 UCI 机 器 学 习 数 据 库 ?进行 聚 类 , 当 预 设 聚 类 类 别 数 分 别 为 1 一 8 时 , 则 所 得 到 的 聚 类 正 
确 率 是 不 同 的 ,如 图 6.7 所 示 。 

此 外 ,对 于 基于 目标 函数 的 聚 类 算法 ,迭代 优化 易 收 敛 于 局 部 极 值 , 难 以 获得 全 局 最 优 
解 。 以 -均值 为 例 , 常 采 用 梯度 下 降 法 实现 迭代 。 由 于 梯度 法 的 搜索 方向 是 沿 着 能 量 减 小 


ESAE] 


= 
N 
x 
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预 设 类 别 数 (| 
国正 确 率 (%) | 33.1| 68 


94.9 | 93.3 | 80.3 | 48.9 | 55.1 | 43.3 


6.7 不 同 的 聚 类 数 初 值 导致 上 均值 的 聚 类 正确 率 不 同 


的 方向 进行 ,因此 易 陷入 局 部 极 值 。 例 如 ,对 于 如 图 6. 8 所 示 的 由 12 个 对 象 组 成 的 集合 , 显 
然 不 管 采 用 什么 聚 类 方法 ,其 结果 均 应 为 3 类 ,结论 应 该 是 一 致 的 。 然 而 ,理论 分 析 和 仿真 
实验 均 表明 ,使 用 -均值 求解 这 一 简单 问题 时 ,经 常会 出 现 错 解 或 无 解 的 情况 。 若 按 横 坐 
标 从 小 到 大 将 对 象 依次 编号 为 1 一 12, 当 3 个 初始 聚 类 中 心 分 别 选取 2、3 和 6, 或 6.10 和 
11, 或 14 和 8 时 ,算法 均 得 出 错误 的 结论 ; 当 3 个 初始 聚 类 中 心 分 别 选取 1.4 和 10 时 , 算 
法 得 不 到 任何 解 。 为 了 避免 出 现 上 述 问题 ,近年 来 提出 了 多 种 算法 以 提高 目标 函数 的 优化 
效率 。 例 如 ,1999 年 Krishma 根据 遗传 算法 的 原理 以 人 -均值 算 子 代替 遗传 算法 中 的 交叉 算 
子 , 提 出 了 一 种 混合 遗传 算法 ; 2000 年 Mali 采 用 聚 类 中 心 的 浮 点 编码 方法 ,并 设计 了 浮 点 
数 交 叉 和 变异 算 子 ,从 而 提高 聚 类 算法 的 搜索 效率 。 但 是 ,仿真 实验 结果 表明 , 当 聚 类 数目 、 
对 象 个 数 和 维度 较 大 时 ,这 两 种 基于 遗传 算法 的 聚 类 方法 经 常会 出 现 早 熟 现象 。 聚 类 规模 
越 大 ,早熟 越 容易 发 生 , 而 且 由 于 进化 算法 在 进化 过 程 中 可 能 产生 退化 现象 ,从 而 导致 迭代 
次 数 过 多 以 及 聚 类 准确 率 不 高 ,并且 可 能 出 现 进化 后 期 的 波动 现象 ; 2003 年 行 小 帅 等 提出 
了 基于 免疫 规划 的 上 均值 聚 类 算法 ,其 主要 思想 是 在 合理 提取 免疫 疫苗 的 基础 上 ,通过 接 
种 疫苗 和 选择 操作 分 别提 高 个 体 的 适应 度 并 防止 种 群 的 退化 ,从 而 有 效 地 避免 局 部 极 值 , 提 


高 全 局 寻 优 性 。 
0 2 4 6 8 10 12 
Qoo; 
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0 2 4 6 8 MLR 
图 6.8 & 均 值 算法 失效 的 示例 


如 何 评价 不 同 聚 类 算法 的 性 能 呢 ? 评价 聚 类 算法 的 一 般 标准 包括 : 

(1) 可 伸缩 性 

即 算法 中 模式 数 增 大 的 情况 。 有 些 算法 在 数据 量 小 的 情况 下 ,算法 的 性 能 很 好 ,但 是 数 
据 量 增 大 后 ,算法 性 能 下 降 。 如 -中心 点 , 它 对 小 的 数据 集合 非常 有 效 , 但 对 大 的 数据 集合 
不 具有 良好 的 可 伸缩 性 。 

(2) 高 维 性 

有 些 算法 只 擅长 处 理 低 维 数据 。 高 维 空间 的 聚 类 是 一 个 挑战 ,特别 是 非常 稀 玻 和 偏 斜 
的 数据 。 

(3) 发 现任 意 形状 的 聚 类 

一 个 簇 可 能 是 任意 形状 的 ,但 一 般 的 聚 类 算法 是 基于 欧 氏 距离 和 曼哈顿 距离 实现 聚 类 ， 
更 趋 于 发 现 球状 簇 ,在 这 方面 基于 密度 的 方法 较 好 。 

(4) 处 理 噪 声 的 能 力 

噪声 可 能 是 数据 本 身 不 完整 ,也 可 能 是 孤立 点 。 有 些 算 法 不 擅 于 处 理 孤 立 点 数据 ,由 此 
还 专门 出 现 了 发 现 孤 立 点 的 算法 。 

(5) 输入 参数 的 领域 知识 最 小 化 和 输入 顺序 敏感 性 

一 方面 要 求 降低 算法 对 输入 参数 的 敏感 度 , 另 一 方面 要 求 输入 顺序 对 算法 结果 的 影响 
小 。 如 -均值 算法 ,需要 预先 给 出 簇 的 数目 ,这 一 参数 非常 影响 聚 类 效果 ,这 常常 是 高 效率 
算法 的 弱点 。 

(6) 可 解释 性 和 可 用 性 

知识 发 现 过 程 中 , 聚 类 结果 需要 表现 为 知识 , 即 要 求 聚 类 结果 可 解释 、 易 理解 。 这 与 可 
视 化 密切 相关 ,同时 也 与 实际 应 用 有 关 。 如 SOM 算法 用 于 文本 聚 类 可 以 产生 知识 地 图 , 具 
有 良好 的 可 视 化 功能 。 

1965 年 ,Zadeh 首次 给 出 聚 类 有 效 性 的 度量 一 一 分 离 度 (Degree of Separation)。 但 是 ， 
后 来 发 现 它 对 模糊 聚 类 有 效 性 的 判断 并 不 十 分 有 用 ; 1974 年 Bezdek 提出 划分 系数 
(Partition Coefficient) ,这 是 第 一 个 有 用 的 度量 聚 类 有 效 性 的 泛 函 , 旨 在 度量 各 聚 类 之 间 的 
“ 重 释 ?程度 。 

定义 6.3: 设 UEMA 为 集合 X WRH c-r «| X | ^n.2« cn. WU 的 划分 系数 是 : 

FU; = 515) Qa /n (6.57) 


其 中 ,为 数据 集 的 样本 个 数 ,c 为 模糊 聚 类 个 数 ,us 为 数据 点 上 属于 类 ; 的 模糊 隶属 
度 。 若 所 有 的 ua HE 0 或 1, 则 示 小 ,所 给 出 的 聚 类 效果 较 好 ; 若 us 接近 0.5, 则 聚 类 的 模 
枯 程 度 高 , 则 精 大 , 聚 关 效 果 较 差 。 最 佳 有 效 划分 是 maxtmaxfF(Uic)) }。 其 主要 缺点 是 


具有 单调 下 降 趋势 以 及 与 数据 集 本 身 的 特征 缺乏 直接 的 关联 。 
类 似 地 ,Shannon 提出 了 划分 炉 (Classification Entropy) 。 
定义 6.4: 设 UEMA 为 集合 X 的 模糊 c- 划 分 , | 久 | ^n. 1e cn. WU (53 4) f : 


HU) —— `) S Gs log, Cu) /n (6.58) 


j=1 i21 


其 中 ,aE (1.99) HRS u; —0 则 u; log, Cus) —0. 最 佳 有 效 划 分 是 min{min{ H(U;c)}})。 
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划分 系数 与 划分 炉 两 者 之 间 的 关系 可 表示 为 : 
0<1—F(U;c) < H(U;c)/ log, Ce) (6.59) 
其 中 ,a€ (1,25) H e—2.718-- 
为 了 克服 上 述 两 种 有 效 性 函数 的 不 足 , Windham 提出 比例 指数 (Proportion 
Exponent), 
定义 6.5: VEUC (M, 一 Mo SEG X 的 模糊 c-X , |X| =n,2<c<n, XF U HY k 
列 ,1 三 k 志 nn, 使 


u = max(us) = V, us (6. 60) 


1<i<e 
[ur ] = greatestinteger < (1/1) (6.61) 
则 器 的 比例 指数 是 : 


Lc 


PU; --w[Ii[2: vef Ir 1-j-V er] (6.62) 


k 


最 佳 有 效 划分 是 max {max{P(U;c)}} 


后 来 ,Gunderson 提出 分 离 系数 (Separation Coefficient) ,考虑 了 数据 集 的 几何 特征 ,但 
无 法 直接 应 用 于 模糊 聚 类 ,必须 首先 将 模糊 聚 类 转换 为 硬 聚 类 。 

直到 1989 年 Xie 和 Beni 提出 了 Xie-Beni 方法 , 才 使 聚 类 有 效 性 问题 得 以 进一步 的 
发 展 。 

设 数据 集合 X—(X; ,j= 二 1,2,…,n) 具 有 cc 个 模糊 划分 ,Vi(i 二 1,2,…,c) 为 各 聚 类 中 
放 wi 王 124sc3j 二 1,2,…,n) 为 数据 点 7 属于 类 i 的 模糊 隶属 度 。 

定义 6.6: dj =p; eX; 一 Vi ll 28 X; 与 类 i 的 模糊 偏 移 。 

由 定义 6.6 可 知 , | 。|| 为 通用 的 欧 氏 范式 , 必 为 Xi 与 Vi; 之 间 的 欧 氏 距离 。 

定义 6.7: n = > jns 为 类 i 的 模糊 势 。 

由 定义 6.7 可 知 , n; — Plin, = n. 在 硬 划分 的 极端 情况 下 n 具有 确定 的 数值 , 即 类 i 
中 的 向 量 个 数 。 

定义 6.8:ci = PI = (da)! + (da * ++ Cd, )? 为 类 i 的 偏差 , 即 对 于 任意 的 
类 i 所 有 数据 点 偏 移 的 平方 和 ,o 一 2s = 2 2 (ds )? 为 所 有 聚 类 的 总 偏差 。 


由 定义 6.8 可 知 ， 它们 并 没有 进行 标准 化 处 理 ， 并 且 与 所 选用 的 坐标 系 有 关 。o 值 越 
小 , 则 聚 类 效果 越 好 。 


定义 6.9: x 一 二 为 数据 集合 模糊 c 划分 的 紧 致 度 , 即 总 偏差 与 数据 集 大 小 的 比率 。 


zt 值 表示 每 一 聚 类 的 紧 致 程度 , 聚 类 越 紧密 , 则 x 值 越 小 ,表明 数据 集 本 身 的 分 布 特点 ， 
与 样本 数量 无 关 。x 值 小 , 则 表明 聚 类 效果 较 好 。Gath 和 Geva 给 出 了 一 种 模糊 超 体 积 的 
有 效 性 度量 (加 权 总 偏差 ), 可 以 判断 椭圆 体 聚 类 以 及 重 琶 的 聚 类 。 


定义 6.10: ;一 下 为 类 i 的 紧 致 度 。 
因为 类 i 中 的 向 量 个 数 为 ,所 以 oi/n; 为 类 i 的 平均 偏差 。 此 外 ,模糊 c 划分 的 紧 致 度 


还 可 以 定义 为 x = (Zini)/e 或 x = maxx;。 
定义 6.11: s— (d? 为 模糊 c 划分 的 分 离 度 ,其 中 dun — min l| V; —V; | 为 各 聚 类 中 


心 之 间 的 最 短 距 离 。 
s 值 越 大 , 则 表明 所 有 的 聚 类 都 是 分 离 的 。 


定义 6. 12: S= HEF R BUE AA S BE NAT APE RA, ED 


3 Iv:-x l? 
i=l j=1 4 
n min TV, V, T* 56:699 


由 定义 6.12 可 知 ， S 的 定义 与 计算 yy 所 采用 的 方法 无 关 。 S 越 小 , 则 表明 所 有 聚 类 紧 
密 且 相互 独立 。 随 着 c 的 增加 而 接近 时 ,S 将 单调 递减 。 为 此 ,可 引入 专门 的 惩罚 函数 以 
消除 递减 趋势 。 即 使 不 采用 惩罚 函数 ,有 效 性 函数 S 仍然 是 一 种 行 之 有 效 的 方法 。 
由 此 给 出 一 种 采用 S 作为 有 效 性 函数 的 启发 策略 。 对 于 任何 一 种 模糊 聚 类 算法 ,发现 
数据 集 X 的 一 个 或 多 个 最 佳 c 划分 (c= 二 2,3,…,n 一 1) 可 表示 为 : 
min ,UninS) (6.64) 


2<c<n— 

其 中 ,Q. 为 对 于 每 个 < 的 最 适合 的 候选 数据 样本 。 

有 效 性 函数 S 和 划分 系数 下 都 是 判断 模糊 聚 类 有 效 性 的 标准 , 均 可 以 直接 使 用 ,但 两 
者 也 存在 一 定 的 不 同 之 处 。 首 先 , 忆 与 任意 模糊 子 集 之 间 的 平均 重 蚕 程度 成 反比 ,而 S 与 平 
均 紧 致 度 和 分 离 度 成 正比 ; 其 次 ,下 缺少 与 数据 集合 本 身 某 些 特征 的 直接 关联 ,而 S 则 与 数 
据 集合 的 几何 特征 ,距离 的 度量 方法 及 聚 类 中 心 的 位 置 等 存在 直接 关系 。 

继而 又 给 出 了 一 个 新 的 划分 系数 P Cuse) ,其 定义 的 聚 类 有 效 性 函数 FP usc) H: 
1 


DX P339 


此 外 ,基于 聚 类 本 身 的 物理 意义 给 出 了 一 个 模糊 聚 类 有 效 性 函数 7(X,c) 。 

定义 6.13: AGE X— (3^ p—1,2,-, N} ER" ,样本 x? — Gra impo sEm) WRAN 
数 为 c2 ND RR HDA u= Ca ev v0 * € R", 则 称 集合 M, 是 xX 的 一 个 模糊 < 
划分 。 


FP(u.c) = P(u,c) 


(6. 65) 


M. ={U € Vu | py € [0,1]; Vj. 05 D uy 
j=1 


N 
=1,Vp;0 < Suy < N. Vj) (6. 66) 
p=1 
在 式 (6. 66) 中 ,yw =p C^ ) ER x? 属于 第 j 类 的 隶属 度 ,U S Ga usu uj = 


(un vwz，"… us ) 是 样本 xX 的 第 j 个 聚 类 集合 ,Vw 是 cXNN 阶 实 和 矩阵 的 集合 。 
根据 定义 6. 13, 模 糊 划分 的 紧 致 度 定 义 为 FCM 划分 的 平均 方差 , 即 : 
YX) = ED (x? —v)TA(z? — vj) (6.67) 
NT 1 p-1 


其 中 ,4 为 n Xn 正定 加 权 和 矩阵 ,可 将 欧 拉 空间 扩展 到 其 他 空间 。 
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根据 定义 6. 13 ,模糊 划分 的 分 离 度 定义 为 不 同 聚 类 中 心 之 间 的 平均 距离 , 即 : 


c1 € 
diei NUS tu aA. —) (6. 68) 
| R | j=1h=jH 
其 中 ,|R| 为 集合 R— (Gi v? IdCo ws) — I oo ll ih, 1i hc). 
模糊 聚 类 有 效 性 函数 QOL OE SUI : 
qao 一 EXGO (6.69) 


有 效 性 函数 7(X,c) 被 定义 为 紧 致 度 和 分 离 度 之 比 。 显 然 ,模糊 划分 形成 的 同一 聚 类 中 
的 样本 靠 得 越 紧 , 不 同 聚 类 中 心 的 距离 越 远 , 则 模糊 聚 类 结果 的 合理 程度 越 好 。 模 糊 聚 类 的 
合理 划分 即 尽量 使 7(X,c) 越 小 越 好 ,这 样 则 代表 了 一 个 最 有 效 的 划分 ,并 由 此 确定 聚 类 
数 c。 

但 是 , 当 * 增加 而 接近 N 时 , 聚 类 有 效 性 函数 7(X,c) 具 有 单调 性 。 

聚 类 有 效 性 是 聚 类 分 析 的 一 个 瓶颈 ,对 于 聚 类 的 成 功 应 用 将 产生 十 分 深远 的 影响 。 
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第 7 章 分 类 和 预测 


分 类 (Classification) 是 数据 挖掘 的 主要 功能 之 一 ,通过 分 析 类 别 已 知 的 训练 数据 ,获得 
描述 并 区 分 类 别 或 概念 的 模型 ,使 用 该 模型 预测 并 标记 未 知 对 象 所 属 的 类 别 。 
分 类 的 目的 是 分 析 输 入 数据 ,通过 训练 数据 表现 出 来 的 特性 ,获得 每 个 类 准确 的 描述 或 
者 模型 ,这 种 描述 常常 用 谓词 表示 ,使 用 类 描述 对 未 知 数据 进行 分 类 。 尽 管 这 些 测试 数据 的 
类 别 是 未 知 的 , 仍 可 预测 这 些 新 数据 所 属 的 类 。 注 意 是 预测 ,而 不 能 肯定 。 
分 类 的 评价 遵循 以 下 标准 : 
。 预测 准确 率 , 指 模型 能 够 正确 预测 未 知 数据 类 别 的 能 力 。 
。 速度 , 指 构造 和 使 用 模型 时 的 计算 效率 。 
* 重 棒 性 , 指 在 数据 有 噪声 或 缺失 的 情况 下 ,模型 仍 能 正确 预测 的 能 力 。 
。 可 扩展 性 , 指 处 理 大 量 数据 并 构造 相应 有 效 模型 的 能 力 。 
。 易 理解 性 , 指 所 获 模型 提供 的 可 理解 程度 。 
分 类 算法 是 一 种 有 监督 的 学 习 算 法 ,其 目的 是 根据 训练 样本 集 找 出 能 准确 描述 并 区 分 
类 别 或 概念 的 模型 ,以 便 依据 实体 的 属性 值 及 其 他 约束 条 件 将 其 划分 到 某 个 类 别 中 。 目 前 ， 
主要 的 分 类 算法 包括 决策 树 、 贝 叶 斯 网 络 、 神 经 网 络 .遗传 算法 、 粗 糙 集 和 实例 推理 等 。 
。 决策 树 是 经 典 的 分 类 算法 ,采用 自 顶 向 下 递归 、 各 个 击破 的 方式 构造 决策 树 。 树 的 
每 一 个 结 点 使 用 信息 增益 选择 属性 ,从 生成 的 决策 树 中 可 提取 分 类 规则 。 
。 KNN(K-Nearest Neighbor, K 最 近邻 ) 是 由 Cover 和 Hart 于 1968 年 提出 ,算法 主 
要 思路 非常 简单 直观 , 即 如 果 一 个 样本 在 特征 空间 中 的 & 个 最 相似 (特征 空间 中 最 
邻近 ) 的 样本 的 大 多 数 属于 某 个 类 别 , 则 该 样本 也 属于 这 一 类 别 , 即 分 类 时 只 依据 最 
邻近 的 一 个 或 几 个 样本 所 属 的 类 别 决定 待 分 类 样本 的 类 别 。 虽 然 ,KNN 在 原理 上 
也 依赖 于 极限 定理 ,但 在 分 类 时 ,只 与 极 少量 的 相 邻 样本 有 关 。 因 此 ,该 方法 可 以 较 
好 地 避免 样本 不 平衡 的 问题 。 另 外 ,由 于 KNN 主要 依靠 有 限 的 邻近 样本 ,而 不 是 
依靠 判别 类 域 的 方法 确定 所 属 类 别 ,因此 对 于 类 域 交 叉 或 重 释 较 多 的 待 分 类 样本 集 
而 言 ,KNN 更 为 适用 。KNN 的 不 足 之 处 是 计算 量 较 大 ,因为 对 每 一 个 待 分 类 样本 
都 要 计算 其 到 全 体 样本 的 距离 ,才能 求 得 它 的 个 最 近邻 。 目 前 常用 的 解决 方法 是 
事先 对 已 知 样本 进行 剪辑 ,去 除 对 分 类 作用 不 大 的 样本 。KNN 比较 适用 于 样本 数 
量 较 大 的 类 域 的 分 类 ,而 那些 样本 数量 较 小 的 类 域 采用 这 种 算法 则 较 容 易 产 生 
误 分 。 
e SVM(Support Vector Machine. XF m HL) H Vapnik 等 人 于 1995 年 提出 ,具有 相 
对 良好 的 性 能 。 该 方法 是 建立 在 统计 理论 基础 上 的 机 器 学 习 方法 。 通 过 学 习 SVM 
可 以 自动 寻找 出 那些 对 分 类 有 较 好 区 分 能 力 的 支持 向 量 , 由 此 构造 的 分 类 器 可 以 最 
大 化 类 与 类 的 间隔 ,因而 具有 较 好 的 适应 能 力 和 较 高 的 分 准 率 。 该 方法 是 由 各 类 域 
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的 边界 样本 的 类 别 决 定 最 后 的 分 类 结果 。 该 算法 旨 在 寻找 一 个 超 平面 ,该 超 平面 可 
以 将 训练 集中 的 数据 分 开 , 且 与 类 域 边界 的 沿 垂直 于 该 超 平面 方向 的 距离 最 大 , 故 
SVM 亦 被 称 为 最 大 边 (Maximum Margin) 算 法 。SVM 对 小 样本 量 的 分 类 效果 
较 好 。 
贝 叶 斯 是 一 种 已 知 先 验 概率 与 类 条 件 概 率 的 分 类 方法 , 待 分 类 样本 的 分 类 结果 取决 
于 各 类 域 中 样本 的 全 体 。 设 训练 样本 分 为 M 类 , 记 为 C={c ,cs，… ,cm) ,每 类 的 先 
验 概率 为 P(ci) ,其 中 ;一 1,2,…,M。 当 样本 量 非常 大 时 ,可 以 认为 PG — c; 类 的 
样本 数 /总 样本 数 。 对 于 一 个 待 分 类 样本 X, 其 归于 c; 类 的 条 件 概率 是 已 CX/ci) AR. 
据 Bayes 定理 ,可 得 到 c; 类 的 后 验 概率 P(ci/X) 为 : 

P(c/X) = POX/c)PGO/PCOXO (1 

车 PG;/X) —MaxjP CG;/ X) ,i—1,2,*,M,j 71,2, M,lll X€ c; (7.2) 

式 (7.2) 是 最 大 后 验 概率 判决 准则 ,将 式 (7.1) 代 入 式 (7.2), 则 车 PCz/c) PGO — 
Maxj[PCz/c) P(e)j,i==1,2,…,M,j 二 1,2,…,M, 则 XEc, 即 常用 的 贝 叶 斯 分 类 判决 准 
则 。 经 过 长 期 的 研究 ,理论 上 贝 叶 斯 论证 较 充分 ,应 用 非常 广泛 。 

贝 叶 斯 分 类 的 不 足 之 处 是 实际 情况 下 ,类 别 总 体 的 概率 分 布 和 各 类 样本 的 概率 分 布 函 
数 (或 密度 函数 ) 常 常 是 未 知 的 , 若 要 获得 则 要 求 样 本 量 足 够 大 。 另 外 , 贝 叶 斯 分 类 要 求 各 条 
件 概 率 相 互 独立 ,实际 中 一 般 很 难 满足 ,因此 往往 在 效果 上 难以 达到 理论 最 大 值 。 

分 类 和 回归 都 可 以 实现 预测 ,分 类 预测 的 是 二 元 值 或 离散 的 类 别 ,而 回归 预测 的 是 连续 
或 有 序 值 。 分 类 预测 和 回归 预测 流程 基本 相同 , 即 数据 准备 时 ,从 所 有 数据 集中 提取 部 分 数 
据 , 作 为 训练 集 ; 同时 将 剩余 的 数据 作为 测试 集 ; 利用 分 类 算法 对 训练 集 进行 分 析 ,得 到 分 
类 模型 ; 利用 测试 集 对 训练 后 的 分 类 模型 进行 评估 .判断 分 类 模型 是 否 准确 。 最 后 ,使 用 模 
型 对 未 知 样本 进行 预测 。 

传统 的 预测 方法 包括 趋势 外 推 法 .时 间 序 列 法 和 回归 分 析 法 等 。 

。 趋势 外 推 法 通常 用 描 散 点 图 的 方法 定性 地 确定 变化 趋势 ,再 按照 该 变化 趋势 对 未 来 
情况 做 出 预测 ,特点 是 不 对 其 中 的 随机 成 分 作 统 计 处 理 。 

时 间 序 列 法 将 因 变 量 (预测 目标 ) 和 自 变量 (影响 预测 目标 的 因素 ) 均 看 成 随机 变量 。 
实际 中 ,多 数 预 测 目标 的 观测 值 构成 的 序列 表现 为 (广义 ) 平 稳 的 随机 序列 或 可 以 转 
化 为 平稳 的 随机 序列 。 虽 然 在 某 一 给 定时 刻 预 测 目标 的 观测 值 是 随机 的 ,但 从 整个 
观测 序列 看 , 却 呈 现 出 某 种 随机 过 程 ( 如 平稳 随机 过 程 ) 的 特性 。 随 机 时 间 序 列 方法 
正 是 依据 这 一 规律 建立 和 估计 产生 实际 序列 的 随机 过 程 模型 ,然后 利用 这 些 模 型 进 
行 预测 。 
* 回归 分 析 法 假定 目标 同一 个 或 多 个 独立 变量 存在 相关 关系 ,寻找 相关 关系 的 模型 。 
不 同 于 时 间 序 列 法 的 是 模型 的 因 变 量 是 随机 变量 ,而 自 变量 是 可 控 变 量 。 回 归 分 为 
线性 和 非 线性 ,目前 常用 多 元 线性 回归 模型 。 


7.1 神经 网 络 


神经 网 络 (Neural Network, NN) 是 由 大 量 神经 元 (又 称 为 处 理 单元 ) 广 泛 互 连 组 成 的 网 
络 ,是 在 现代 神经 生物 学 基础 上 提出 的 模拟 生物 过 程 以 反映 人 脑 某 些 特性 的 计算 结构 。 神 
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经 网 络 不 是 人 脑 神经 系统 的 真实 刻画 ,而 只 是 某 种 抽象 .简化 和 模拟 。 信 息 的 处 理 是 由 神经 
元 之 间 的 相互 作用 实现 ,知识 与 信息 的 存储 表现 为 网 络 元 间 分 x 


布 式 的 物理 联系 ,学 习 和 识别 决定 于 各 神经 元 连接 权 值 的 动态 p 5 
演化 过 程 。 神 经 网 络 是 一 个 高 度 非 线性 的 超大 规模 连续 时 间 动 (9 » 
力 系统 。 
神经 元 是 神经 网 络 的 基本 单元 ,一 般 是 多 输入 / 单 输出 的 非 i s 
线性 器 件 , 其 结构 和 1/0 特性 分 别 如 图 7.1 和 图 7.2 所 示 。 图 7.1 神经 元 的 结构 
f) fx) fo) 
(2) 神经 元 一 (b) 神经 元 二 (c) 神经 元 三 


图 7.2 神经 元 的 1/0 特性 


在 图 7.1 中 ,wi 为 神经 元 的 内 部 状态 ,0; 为 域 值 ,zx; 为 输入 ,y; 为 输出 ,wy 是 神经 元 u; 
Pu; 的 连接 权 值 ,si 为 外 部 输入 ( 某 些 情况 下 , 它 可 以 控制 神经 元 ui 使 其 保持 在 某 一 状态 )， 
神经 网 络 模型 可 描述 为 : 

9; 一 X Wiz; +s: — 0: 


ui = f(oi) 

yi = gu) = h(o;) h=g*f (2.3) 
常用 的 神经 元 非 线性 特性 描述 如 下 : 
。 域 值 型 ,函数 为 阶 跃 函数 ,如 图 7. 2(a) 所 示 。 


lex; 20 
hG;) = fi) = Ula) = (7.4) 
0,x, <0 


。 分 段 线 性 型 ,如 图 7. 2(b) 所 示 。 
。S 状 ,一 般 没 有 内 部 状态 并 连续 取 值 ,其 1/O 特性 常用 对 数 或 正切 等 S 型 曲线 表示 ， 


1 l 9i x ER 
Prapa cy [1n ) ] rix mr eoe ot e. 


如 图 7.2(c) 所 示 。 

目前 ,已 有 近 四 十 种 神经 网 络 模型 ,具有 代表 性 的 是 BP(Back Propagation, 反 向 传播 )、 
自 适应 共振 理论 (Adaptive Resonance Theory. ART)、Hopfield、 神 经 认 知 机 、 感 知 器 和 自 组 
织 映 射 等 。 其 中 ,BP 神经 网 络 的 应 用 最 为 广泛 ,下 面 将 介绍 BP 神经 网 络 分 类 器 。 

BP 神经 网 络 由 输入 层 、 隐 层 和 输出 层 组 成 ,如 图 7. 3 所 示 。 

BP 神经 网 络 分 类 是 将 训练 样本 的 各 属性 值 作为 输入 ,实际 类 别 作 为 输出 。 对 训练 后 
的 BP 网络 ,通过 剪 枝 、 神 经 元 或 活跃 值 的 聚 类 处 理 ,导出 输入 层 和 输出 层 的 关联 规则 , 根 
据 这 些 规则 实现 分 类 。BP 神经 网 络 中 , 反 向 传播 学 习 通 过 一 个 使 目标 函数 最 小 化 的 过 程 
完成 输入 到 输出 的 映射 ,目标 函数 定义 为 输出 层 神经 元 的 期 望 输 出 与 实际 输出 的 误差 平 
方 和 , 即 : 


如 x; 


EFL IAE ML 


m 
N 
ke] 
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图 7.3 BP 神经 网 络 的 结构 


E- XE, - 122 214, - 0, (7.5) 
其 中 ,ts 是 在 输入 第 P 个 样本 时 输出 层 单元 j 实际 输出 O, 的 期 望 输出 。 目 标 函 数 E 
曲面 上 梯度 下 降 由 下 面 的 公式 计算 得 到 : 


3E 3E, 
H- DR- Yee 


-$- zC$)- De (7.6) 
对 于 输出 层 单元 ) ,一 般 化 误差 0, 表示 为 : 
à, = y — Opg — Oy) gO y (. 7) 
Ld IE : 
à, = Oyg (1 Oy)g 2304, Wy (7.8) 
据 此 可 以 调整 各 连接 权 值 和 阔 值 。 


分 类 前 需要 确定 BP 神经 网 络 的 拓扑 结构 , 即 确定 隐 层 的 神经 元 个 数 及 各 神经 元 初始 
权 值 和 冰 值 。 理 论 上 , 隐 层 的 神经 元 数量 越 多 ,逼近 越 精确 。 实 际 上 , 隐 层 神经 元 数量 不 宜 
过 多 ,和 否则 会 极 大 地 增加 训练 时 间 ,并 造成 网 络 容错 能 力 下 降 。 同 时 ,为 了 加 快 学 习 和 训练 ， 
需 将 训练 样本 各 属性 值 规范 化 到 区 间 [0,.1]。 对 离散 属性 可 重新 编码 ,使 各 阔 值 对 应 一 个 输 
入 神经 元 ,例如 输入 样本 为 (po， pists po WTR DoD Lien 十 1 个 输入 神经 
元 。 对 输出 也 需 进行 规范 化 ,主要 针对 实际 类 别 与 输出 神经 元 的 对 应 关系 。 当 只 有 两 个 类 
别 时 ,可 用 一 个 输出 神经 元 表示 (神经 元 输出 0 表示 一 个 类 别 ,1 表示 另 一 个 类 别 ); 若 实际 
输出 多 于 两 个 类 别 , 则 可 以 每 个 类 别 分 别 对 应 一 个 输出 神经 元 。 
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BP 神经 网 络 存在 的 主要 问题 是 : 

。 收敛 速度 。BP 算法 最 大 的 弱点 是 其 训练 很 难 收敛 ,其 训练 速度 非常 慢 , 尤 其 是 当 网 
络 训练 达到 一 定 的 程度 。 

。 局 部 极 小 值 。BP 算法 采用 的 是 梯度 下 降 法 ,对 一 个 复杂 的 网 络 而 言 ,其 误差 曲面 是 一 
个 高 维 空间 的 曲面 ,其 中 分 布 着 许多 局 部 极 小 值 ,一 旦 陷入 局 部 极 小 值 则 很 难 逃 离 。 

。 网 络 瘫痪 。 在 训练 中 , 权 值 可 能 变 得 很 大 ,这 会 使 神经 元 的 输入 变 得 更 大 ,导致 其 激 
励 函 数 的 一 阶 导数 在 此 点 上 的 值 很 小 。 此 时 的 训练 步 长 会 变 得 非常 小 ,最 终 造 成 网 
络 停止 收敛 , 即 出 现 所 谓 的 网 络 瘫痪 。 

BP 算法 的 类 C 语言 描述 如 下 : 


输入 : 训练 样本 集合 ,学 习 率 7 多 层 前 馈 神经 网 络 
输出 : 一 个 用 于 对 样本 分 类 的 BP 神经 网 络 
初始 化 BP network 的 权 值 Wi Fn Bl (E 0, ; 
while 不 满足 训练 终止 条 件 
{ 
for samples 中 的 各 训练 样本 X // 正 向 传播 输入 


{ 
for 隐 层 或 输出 层 的 各 神经 元 j 
{ 


L= DiNy* 0, +0; // 相 对 于 前 一 层 i, 计算 神经 元 j 的 输入 T, 
0= 1/(1 +e- LI); // 使 用 对 数 型 的 单 极 性 Sigmoid 函数 将 各 神 
// 经 元 j 的 输出 映射 到 区 间 [0, 1] 
for 输出 层 的 各 神经 元 j // 反 向 传播 误差 
ERR; = 0, * (1- 0)*#(T,— 0); // 根 据 训 练 样本 的 已 知 类 标号 真实 输出 m， 
// 计 算 神 经 元 j 的 误差 ERR; 
for 从 最 后 1 个 到 第 1 个 隐 层 的 各 神经 元 j 
ERR, = 0, * (1- 0) * Zk(ERR, * Wy); // 根 据 下 一 较 高 层 中 连接 到 j 的 所 有 神经 元 
// 的 误差 加 权 值 来 计算 隐 层 神经 元 j 的 误 
// 差 ERR; 
for BP network 中 的 各 权 值 Wi // 更 新 权 值 
{ 
AW = * ERR, * Oi // 实 际 应 用 时 ,1 一 般 经 验 性 地 设置 为 训练 样 
// 本 集 迭 代 次 数 的 倒数 
Wi = Wi + AW 
) 
for BP network 中 的 各 阅 值 0; // 更 新 闻 值 
{ 
Abi = WN* ERR; 
0; 2 0; + A6; 


} 
} 
} 
} 

BP 算法 的 流程 如 图 7.4 所 示 。 

其 学 习 过 程 分 为 正 向 传播 输入 和 反 向 传播 误差 。 样 本 从 输入 层 经 隐 层 到 输出 层 , 逐 层 处 
理 时 ,各 层 神经 元 状态 只 对 下 一 层 神 经 元 的 状态 产生 影响 。 在 输出 层 , 实 际 输出 和 期 望 输出 不 
一 致 时 ,进入 反 向 传播 过 程 ,即将 误差 反 向 传播 ,并 通过 更 新 权 值 和 阔 值 调整 ,使 误差 趋向 最 小 。 
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图 7.4 BP 算法 的 流程 图 


7.2 决策 树 


决策 树 (Decision Tree) 是 分 类 预测 的 主要 方法 ,采用 基于 实例 的 归纳 学 习 , 旨 在 从 一 组 
无 序 、 无 规则 的 实例 中 推理 出 决策 树 形式 的 分 类 规则 ,采用 自 项 向 下 的 递归 方式 ,在 决策 树 
的 内 部 结 点 进行 属性 值 的 比较 并 根据 不 同属 性 判断 从 该 结 点 向 下 的 分 支 , 在 决策 树 的 叶 结 
点 得 到 结论 ,所 以 从 根 到 叶 结 点 对 应 一 条 合 取 规则 , 整 棵 树 对 应 一 组 析 取 规则 。 

决策 树 分 类 是 利用 属性 值 对 各 子 集 逐 级 划分 ,直到 一 个 结 点 仅 含有 同一 类 样本 为 止 。 
最 早起 源 于 Hunt 等 人 提出 的 概念 学 习 系 统 (Concept Learning System. CLS) ,然后 发 展 到 
Quinlan 的 ID3 算法 ,最 后 演化 为 能 处 理 连 续 值 属性 的 C4. 5 算法 。 

1. 主要 算法 

下 面 主要 介绍 三 种 。 
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以 一 棵 空 决策 树 开始 .通过 增加 结 点 逐步 求 精 , 直 到 产生 一 棵 能 正确 分 类 训练 样本 的 决 


策 树 为 止 ,是 一 个 循环 递归 过 程 。 假 设 T 为 已 知 的 训练 集 , 则 : 

CD 如 果 工 的 所 有 样本 均 为 正 例 , 则 生成 一 个 YES 结 点 并 终止 ; 如 果 工 的 所 有 样本 均 
为 反例 , 则 生成 一 个 NO 结 点 并 终止 ; 否则 ,根据 某 种 启发 式 策 略 选择 一 个 属性 4A, 设 A JR 
值 为 w ovs tru, ,并 生成 新 结 点 。 

(2) 将 工 根据 其 属性 A 的 取 值 进行 划分 ,生成 x 个 子 集 记 为 Ti ,Ts,…, TT,。 

(3) 递归 地 应 用 该 算法 到 每 个 子 集 T;。 

CLS 中 ,分 类 属性 的 选择 决定 了 算法 的 效率 与 所 生成 决策 树 的 繁 简 程度 和 预测 效果 。 
属性 选择 是 决策 树 归纳 算法 的 关键 。 

CLS 可 以 产生 所 有 可 能 的 决策 树 , 正 确 分 类 训练 样本 ,并 能 选择 最 简单 的 决策 树 。 但 
是 属性 选择 范围 在 实际 应 用 中 往往 受到 问题 大 小 的 限制 。 

2) ID3 

Quinlan 提出 著名 的 ID3 算法 ,是 对 CLS 的 改进 ,通过 选择 窗口 形成 决策 树 , 利 用 信息 
论 中 的 互信 息 或 信息 增益 选择 具有 最 大 信息 量 的 属性 ,建立 决策 树 的 一 个 结 点 ,再 根据 该 属 
性 的 不 同 取 值 建立 树 的 分 支 , 在 每 个 分 支 中 重复 建立 树 的 下 层 结 点 和 分 支 ,效果 非常 理想 。 
其 优点 是 描述 简单 ,分 类 速度 快 ,特别 适合 大 规模 数据 集 。 但 算法 引用 信息 论 中 的 互信 息 作 
为 单一 属性 能 力 的 度量 ,试图 减少 树 的 平均 深度 ,忽略 了 叶 结 点 数目 的 研究 ,其 启发 式 函数 
并 不 是 最 优 的 ,存在 的 主要 问题 是 : 

CD 互信 息 的 计算 依赖 于 取 值 数目 较 多 的 属性 ,而 取 值 较 多 的 属性 不 一 定 最 优 。 

(2) ID3 是 非 递增 学 习 算 法 。 

G) 抗 噪 能 力 差 ,训练 集中 正 例 和 反例 较 难 控制 。 改 进 算法 有 C4. 5 以 及 CART( 引 进 
可 调 错 误 率 概念 ) 等 。 

下 面 给 出 ID3 算法 的 一 个 实例 。 例 如 根据 天 气 状 况 预 测 某 天 是 否 适合 打 高 尔 夫 球 , 适 
合 的 属于 正 例 记 为 P, 不 适合 的 属于 反例 记 为 N。 天 气 由 四 种 属性 描述 , 即 Outlook 取 值 分 
别 为 sunny、overcast 和 rain; Temperature 取 值 分 别 为 cool, mild 和 hot; Humidity 取 值 为 
normal 和 high; Windy 取 值 为 false 和 true。 训 练 集 共 14 个 样本 ,如 表 7. 1 所 示 。 


表 7.1 打 高 尔 夫 球 天 气 形势 的 训练 集 


序号 Outlook Temperature Humidity Windy Class 
1 sunny hot high false N 
2 sunny hot high true N 
3 overcast hot high false P 
4 rain wind high false P 
5 rain cool normal false P 
6 rain cool normal true N 
7 overcast cool normal true E 
8 sunny mild high false N 
9 sunny cool normal false P 
10 rain mild normal false P 
11 sunny mild normal true P 
12 Overcast mild high true B 
13 overcast hot normal false P 
14 rain mild high true N 
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由 表 7.1 可 知 ,P=9,N=5, 则 


9 9 5 5 
I(P,N) 17°82 14 17.082 14 


0. 940 


ECoutlook) = 二 ICP, ND tK, ND EIC, ,Na) 


$10. | 二 1(4,0) - 1 IG.2) 
5 
14 
一 0. 694 
GainCOutlook) —ICP.N) — E(outlook) = 0.940 — 0.694 = 0.246 
类 似 地 ,可 得 : 


4 5 
x 0.971 +77 X0 +73 X 0-971 


Gain( Temperature) = 0.029 
Gain( Humidity) = 0.151 
Gain( Windy) = 0. 048 
显然 Outlook 的 信息 增益 最 大 ,因此 Outlook 首先 被 选 为 根 结 点 并 向 下 扩展 ,以 此 类 
推 , 得 到 相应 的 ID3 决策 树 ,如 图 7.5 所 示 。 


7.5 打 高 尔 夫 球 的 ID3 决策 树 


3) C4.5 

ID3 有 很 多 改进 算法 ,其 中 Quinlan 在 1994 年 开发 的 C4. 5 流行 最 广 。C4. 5 的 改进 主 
要 体现 在 两 个 方面 : 

(1) 解决 连续 取 值 的 学 习 问 题 。 

(2) 提供 学 习 结 果 决 策 树 到 等 价 规则 集 的 转换 功能 。 

C4. 5 属于 一 种 归纳 学 习 (Inductive Learning) 算 法 , 旨 在 从 大 量 的 训练 样本 中 归纳 抽取 
一 般 的 判定 规则 和 模式 ,是 机 器 学 习 (Machine Learning) 领域 最 成 熟 的 分 支 之 一 。 根 据 有 
无 监督 指导 ,归纳 学 习 又 分 为 有 监督 学 习 (Supervised Learning) 和 无 监督 学 习 
(Unsupervised Learning)。 有 监督 学 习 可 分 为 覆盖 算法 (Covering Algorithm) 和 分 治 算法 
(Divide-and-conquer Algorithm) ,前 者 归纳 生成 规则 ,后 者 归纳 生成 决策 树 。C4. 5 属于 有 
监督 的 学 习 算 法 。 

4) SLIQ 算 法 

构造 决策 树 时 ,SLIQ 采用 预 排 序 和 广度 优先 策略 。 在 一 般 决策 树 中 ,使 用 信息 增益 评 
价 结 点 分 裂 的 质量 。SLIQ 使 用 Gini 指标 (Gini Index) 代 替 信息 增益 ,对 有 个 分 类 的 数据 
集 S,gini(CS) 定 义 为 : 


gini(S) — 1— 5] p, X p; (7.9) 

其 中 ,p; 是 S 中 第 j 类 数据 的 频率 。gini 越 小 ,信息 增益 (Information Gaim K. 

区 别 于 一 般 的 决策 树 ,SLIQ 采用 二 分 查找 树 结构 。 对 每 个 结 点 都 需要 先 计 算 最 佳 分 
裂 方 案 , 然 后 执行 分 裂 。 对 于 连续 值 属性 (Numerical Attribute) 分 裂 可 以 先 对 属性 值 排序 ， 
假设 排序 后 的 结果 为 Vi,V;,…,V, ,因为 分 裂 只 发 生 在 两 个 结 点 之 间 , 所 以 有 n 一 1 种 可 能 
性 。 从 小 到 大 依次 取 不 同 的 分 裂 点 ,通常 取 中 点 (Vi 十 Vir1)/2 作为 分 裂 点 ,使 信息 增益 最 
大 ( 即 gini 最 小 ) 的 即 最 佳 分 裂 。 因 为 每 个 结 点 都 需要 排序 ,所 以 代价 很 大 ,降低 排序 成 本 
成 为 一 个 重要 的 问题 , SLIQ 对 此 有 很 好 的 解决 方案 。 对 于 离散 值 属 性 (Categorical 
Attribute) , 设 S(A) 为 A 的 所 有 可 能 的 值 ,属性 分 裂 将 遍 取 S 的 所 有 子 集 S ,获得 分 裂 成 
S 和 S 一 S 时 的 gini 指标 。 当 gini 最 小 时 , 即 最 佳 分 裂 。 显 然 , 这 是 一 个 遍历 集合 S 的 所 有 
子 集 的 过 程 , 共 需要 计算 2 次 ,代价 很 大 。SLIQ 对 此 也 有 一 定 程度 的 优化 。 

SLIQ 的 处 理 能 力 比 ID3 和 C4. 5 强大 得 多 ,因此 在 一 定 程度 上 具有 良好 的 可 扩展 性 ， 
但 仍 存在 不 足 之 处 ,主要 体现 在 : 

(1) 需要 将 类 别 列表 存放 于 内 存 , 而 类 别 列表 的 长 度 与 训练 集 的 长 度 相 同 ,这 在 一 定 程 
度 上 限制 了 处 理 数据 集 的 大 小 。 

(2) 进行 预 排序 ,而 其 复杂 度 本 身 并 不 是 与 样本 数量 成 线性 关系 ,因此 SLIQ 不 可 能 达 
到 随 样本 数 增长 的 线性 可 扩展 性 。 

2. 算法 描述 

ID3 算法 的 基本 思路 是 首先 在 数据 集中 用 信息 增益 作为 属性 选择 的 标准 找 出 最 有 影响 
力 的 属性 ,将 数据 集 分 成 多 个 子 集 , 每 个 子 集 再 选择 最 具 影 响 力 的 属性 进行 划分 ,一 直 进行 
到 所 有 子 集 仅 包含 同一 类 型 的 数据 为 止 ,最 后 得 到 一 棵 决策 树 。 决 策 树 的 构造 采用 自 上 而 
下 、 分 而 治之 的 递归 方式 。 初 始 时 , 根 结 点 包含 数据 集中 的 所 有 样本 。 若 一 个 结 点 包含 的 样 
本 均 为 同一 类 别 , 则 该 结 点 成 为 叶 结 点 并 标记 为 该 类 别 。 否 则 ,采用 信息 增益 的 度量 选择 合 
适 的 分 类 属性 ,将 数据 集 划 分 为 若干 个 子 集 。 该 属性 称 为 相应 结 点 的 测试 属性 (Test 
Attribute) 。 对 测试 属性 的 每 个 已 知 值 都 创建 一 个 分 支 ,同时 也 包含 一 个 被 划分 的 子 集 。 
递归 地 对 所 获得 的 每 个 划分 形成 一 个 决策 子 树 。 一 旦 一 个 属性 出 现在 某 一 个 结 点 上 , 则 不 
能 再 出 现在 该 结 点 之 后 所 产生 的 子 树 结 点 上 。 当 一 个 结 点 包含 的 所 有 样本 均 为 同一 类 别 或 
没有 样本 满足 测试 属性 值 , 则 算法 终止 。 

基于 信息 增益 选择 测试 属性 的 方法 ,使 得 对 一 个 对 象 分 类 所 需 的 期 望 测试 数 达 到 最 小 ， 
确保 得 到 一 棵 简单 的 树 。 在 该 方法 中 选择 具有 最 高 信息 增益 的 属性 作为 当前 结 点 的 测试 属 
性 ,该 属性 使 得 数据 样本 分 类 所 需 的 信息 量 最 小 ,并 反映 划分 的 最 小 随机 性 或 “不 纯 性 ”。 属 
性 信息 增益 的 计算 方法 如 下 : 

设 数据 集合 S 有 ;个 样本 ,类 别 属性 有 xm 个 不 同 的 取 值 ,定义 m 个 不 同 的 类 C, .i€ {1， 
2,3,…,m})。 设 ;; 为 类 别 C; 的 样本 个 数 , 则 对 一 个 数据 集 分 类 所 需要 的 期 望 信息 为 : 


IGy «55 osm) —— 2, ps logs Cos) (7.10) 
i-l 


其 中 p; 是 任意 一 个 对 象 属于 类 别 C; 的 概率 ,可 以 按 s;/S 计算 。 因 为 采用 二 进 制 编码 ， 
所 以 对 数 函 数 以 2 为 底 。 
设 属性 A 可 取 w 个 不 同 的 值 {a1 azs a,)}。 可 以 用 属性 A YES 划分 为 wv 个子 集 {Si， 
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Szt So} 


,其 中 S; 包含 S 中 属性 A 取 值 为 a; 的 样本 。 若 属性 A 为 测试 属性 , 设 sy HITE 


S; 中 属于 C; 类 别 的 样本 数 。 则 利用 属性 A 划分 当前 集合 所 需要 的 期 望 信息 计算 如 下 : 


其 中 ， 


E) = P] BR fes s eee) (.1D 
i=l 


Boso e y jeg EUR. ECAD RUN RR FARA RR 


好 。 而 对 于 一 个 给 定子 集 Si ,其 期 望 信息 如 式 (7. 10) 所 示 , 其 中 ps 一 [全 [为 子 集 S, 中 任 


一 个 样本 属于 类 别 C; 的 概率 。 
由 此 利用 属性 A 对 当前 分 支 结 点 进行 划分 所 获得 的 信息 增益 是 : 


GainCA) 一 Tsvysamsw) 一 下 (A) (7.12) 


Gain(A) 是 根据 属性 A ETE S Xl 4 Br 3 09 frs E, (19 D "P fit o 

ID3 计算 每 个 属性 的 信息 增益 ,从 中 选择 信息 增益 最 大 的 属性 作为 给 定 集合 的 测试 属 
性 并 由 此 产生 相应 的 分 支 结 点 ,所 产生 的 结 点 被 标记 为 相应 的 属性 ,并 根据 这 一 属性 的 不 同 
取 值 分 别 产 生 相应 的 决策 树 分 支 ,每 个 分 支 代 表 一 个 被 划分 的 子 集 。 

ID3 算法 简单 ,学 习 能 力 较 强 , 但 仅 对 较 小 的 数据 集 有 效 , 且 对 噪声 比较 敏感 , 当 数据 集 
增 大 时 ,决策 树 可 能 会 改变 。C4. 5 继承 了 ID3 的 优点 ,同时 对 ID3 进行 了 改进 ,例如 能 够 完 
成 对 连续 属性 的 离散 化 处 理 ,能 够 对 不 完整 数据 进行 处 理 等 。 

决策 树 的 生成 分 为 两 个 步骤 : 

CD 数据 从 根 结 点 开始 递归 地 进行 数据 分 片 。 

下 面 以 C4. 5 为 说 明 决策 树 生成 算法 : 

Procedure C4. 5BuildTree (S,A ) 

//S: 训练 样本 集 ,A: 分 类 属性 集合 

证 ”属性 是 连续 的 则 进行 散 化 处 理 

证 所 有 样本 属于 同一 分 类 ,返回 标号 为 该 分 类 的 叶 结 点 

else if 属性 值 为 空 ,返回 标号 为 最 普遍 分 类 的 叶 结 点 


else( 


For 每 一 个 属性 A 
估计 该 结 点 在 A 上 的 信息 增益 选 出 最 佳 的 属性 AES 分 裂 为 5;, 长 出 分 支 
(S, 为 属性 A 的 第 i 个 值 对 应 的 样本 集 ) 
For each S; 
if S, HÆ then 返回 叶 结 点 ,标记 为 S 中 最 普遍 的 类 
else C4.5BuildTree (S,,A - Aj) 
) 


(2) 通过 修剪 去 掉 一 些 可 能 是 噪声 或 者 异常 的 数据 。 
决策 树 分 类 算法 的 输入 是 一 组 带 有 类 别 标记 的 训练 样本 ; 输出 是 一 棵 二 叉 或 多 叉 树 。 
二 叉 树 的 内 部 结 点 ( 非 叶子 结 点 ) 一 般 表 示 为 一 个 逻辑 判断 ,例如 形 为 a; v; 的 逻辑 判断 ， 


其 中 a; 是 


属性 ,v; 是 该 属性 的 某 一 取 值 ; 树 的 边 是 逻辑 判断 的 分 支 结果 。 多 又 树 ( 如 ID3) 


的 内 部 结 点 是 属性 , 边 是 该 属性 的 所 有 取 值 ,有 几 个 属性 值 ,就 有 几 条 边 。 树 的 叶子 结 点 均 
为 类 别 标 记 。 决 策 树 的 构造 采用 自 上 而 下 的 递归 方法 。 以 多 叉 树 为 例 ,构造 过 程 是 如 果 训 
练 样本 集合 的 所 有 样本 是 相同 类 别 的 . 则 将 其 作为 叶子 结 点 , 结 点 标记 为 该 类 别 。 否则, 根 
据 某 种 策略 选择 一 个 属性 ,按照 属性 的 各 个 取 值 ,把 集合 划分 为 若干 子 集 ,使 得 每 个 子 集 的 


所 有 样本 在 该 属性 上 具有 同样 的 属性 值 。 然 后 再 依次 递归 处 理 各 个 子 集 。 本 质 上 是 “分 而 
治之 ”(Divide and Conquer) 。 二 叉 树 同 理 , 差 别 仅 在 于 要 选择 一 个 好 的 逻辑 判断 。 构 造 决 
策 树 的 关键 是 如 何 选择 恰当 的 逻辑 判断 或 属性 。 对 于 同样 一 组 样本 ,可 以 有 很 多 决策 树 能 
符合 这 组 例子 。 研 究 表明 ,一 般 情况 下 , 树 越 小 则 预测 能 力 越 强 。 应 构造 尽 可 能 小 的 决策 
树 ,关键 在 于 选择 丛 当 的 逻辑 判断 或 属性 。 由 于 构造 最 小 的 树 是 NP 问题 ,因此 只 能 采用 启 
发 式 策略 选择 逻辑 判断 或 属性 ,如 信息 增益 、 信 息 增益 比 (Gain Ratio) „Gini Index 和 正 交 法 
等 ,不 同 的 度量 效果 不 同 ,特别 是 对 于 多 值 的 属性 。C4. 5 算法 使 用 信息 增益 作为 启发 策略 
构造 决策 树 。 

实际 中 ,用 于 分 类 模型 学 习 的 训练 样本 往往 不 是 完美 的 ,原因 在 于 : 

* 某 些 属性 字段 上 缺 值 (Missing Value). 

。 缺少 必须 的 数据 而 造成 数据 不 完整 。 

。 数据 不 准确 含有 噪声 甚至 是 错误 的 。 

因此 ,克服 噪声 需要 对 决策 树 剪 枝 。 

剪 枝 旨 在 克服 噪声 ,同时 也 能 简化 树 使 之 更 易于 理解 。 剪 枝 类 型 主要 包括 : 

* 向 前 剪 枝 (Forward Pruning) 在 生成 树 的 同时 决定 是 继续 对 不 纯 的 训练 子 集 进行 划 
分 还 是 停机 。 

。 向 后 剪 枝 (Backward Pruning) 是 一 种 两 阶段 法 , 即 拟 合 -化 简 (Fitting and Simplifying)， 

首先 生成 与 训练 样本 完全 拟 合 的 一 棵 决策 树 ,然后 从 树 的 叶子 开始 前 枝 ,逐步 向 根 
的 方向 剪 。 

但 是 , 剪 枝 也 存在 一 定局 限 性 。 剪 枝 并 不 是 对 所 有 的 数据 集 都 适用 ,就 像 最 小 的 树 并 不 
是 最 好 (具有 最 大 的 预测 率 ) 的 树 。 当 数据 稀 朴 时 ,应 防止 过 分 剪 枝 (Overpruning)。 从 某 种 
意义 而 言 , 剪 枝 也 是 一 种 偏向 ,对 有 些 数据 集 效 果 好 ,而 有 些 数据 集 则 效果 较 差 。 


7.3 实现 过 程 


分 类 的 实现 过 程 一 般 分 为 两 个 步 又 。 
1. 通过 训练 集 建立 模型 , 即 构建 模型 
构建 模型 一 般 分 为 训练 和 测试 两 个 阶段 。 构 造 模型 之 前 ,要 求 将 数据 集 划分 为 训练 集 和 
测试 集 , 并 对 每 个 样本 进行 类 别 标记 , 即 预 设 分 类 类 别 。 训 练 阶段 ,通过 分 析 由 属性 描述 的 训 
练 样本 构造 模型 。 该 阶段 也 称 为 有 指导 的 学 习 , 通 常 模 型 为 分 类 规则 、 判 定 树 或 数学 公式 的 形 
式 ; 测试 阶段 ,使 用 测试 集 评估 模型 的 分 类 准确 率 ,如 果 认 为 模型 的 准确 率 可 以 接受 , 则 可 以 
使 用 该 模型 对 类 别 未 知 的 待 分 类 样本 进行 分 类 。 一 般 而 言 ,测试 阶段 的 代价 远 低 于 训练 阶段 。 
为 了 提高 分 类 的 准确 性 .有效 性 和 伸缩 性 ,构建 模型 前 通常 需要 预 处 理 ,具体 包括 : 
。 数 据 清 理 。 其 目的 是 消除 或 减少 噪声 ,处 理 缺失 值 。 
”相关 性 分 析 。 由 于 数据 集 的 许多 属性 可 能 与 分 类 不 相关 , 若 包 含 这 些 属 性 将 减 慢 或 
可 能 误导 学 习 。 相 关 性 分 析 的 目的 是 删除 不 相关 或 元 余 的 属性 。 
* 数据 变换 。 数 据 可 以 抽象 到 较 高 层次 。 例 如 ,属性 “收入 ”的 连续 值 可 以 概 化 为 离散 
值 ,如 低 、 中 和 高 。 此 外 ,还 可 以 规范 化 ,即将 属性 值 按 比例 缩放 到 较 小 的 区 间 , 如 
[0.1]. 
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构建 分 类 模型 的 过 程 如 图 7.6 所 示 。 


训练 集 = 分 类 算法 


姓名 | 职称 [任职 时 间 | 终身 | 
Mike | 讲师 3 a| 
Mary | 讲师 7 E | 
Bill | 教授 2 是 _ | 
Jim | 副教授 | 7 是 | TF (职称 = 教授 
Dave | 讲师 6 8 | OR 任 职 时 间 >6) 
Ame | 副教授 | 3 a] THEN 终 身 -是 


图 7.6 构建 分 类 模型 的 过 程 


2. 利用 已 训练 好 的 模型 识别 类 型 未 知 的 对 象 .即使 用 模型 
测试 集 与 训练 集 相 分 离 ,否则 将 出 现 过 度 拟 合 (Overfitting) 现象。 使 用 分 类 模型 的 过 
程 如 图 7.7 所 示 。 


分 类 /预测 结果 : 
是 终身 教授 


测试 集 


姓名 | 职称 | 任职 时 间 | 终身 

Tom | 讲师 2 否 
Merlisa| 副教授 | — 7 否 
George | 教授 5 是 
Joseph | 讲师 7 是 


7.7 使 用 分 类 模型 的 过 程 
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第 8 章 关联 分 析 


8.1 概述 


自然 界 中 某 一 事物 发 生 时 其 他 事物 也 会 发 生 , 这 样 一 种 联系 称 为 关联 。 反 映 事件 之 间 
依赖 或 关联 的 知识 称 为 关联 型 知识 (又 称 依赖 关系 )。 关 联 是 指 两 个 或 多 个 变量 取 值 之 间 存 
在 的 某 种 重要 的 可 被 发 现 的 规律 性 ,分 为 简单 关联 、 时 序 关联 和 因果 关联 等 。 

以 交易 型 数据 库 为 例 ,一 个 交易 一 般 由 交易 处 理 时 间 , 一 组 顾客 购买 的 物品 ,有 时 
也 包括 顾客 标识 (如 信用 卡号 ) 等 组 成 。 关 联 规则 可 描述 在 一 次 交易 中 物品 之 间 同 时 
出 现 的 规律 。 更 确切 地 说 ,关联 规则 量化 地 描述 了 物品 X 出 现 对 物品 Y 出 现 有 多 大 的 
影响 。 

例如 ,体育 用 品 商 店 通 过 对 销售 数据 的 关联 分 析 发 现 这 些 数据 中 常常 隐 含 这 样 的 规律 ， 
即 “ 购 买 篮球 的 顾客 中 有 70% 的 人 同时 购买 运动 服 , 所 有 交易 中 有 40% 的 人 同时 购买 篮球 
和 运动 服 ” 等 ,这 些 规律 即 关联 规则 。 

另 一 个 典型 例子 是 购物 篮 的 分 析 。 通 过 发 现 顾客 放 入 其 购物 篮 中 不 同 商品 之 间 的 联 
系 ,进一步 分 析 顾 客 的 购买 习惯 ,帮助 零售 商 制 定 针对 性 的 营销 策略 ,如 合理 地 安排 货架 以 
引导 销售 ,将 牛奶 和 面包 尽 可 能 放 近 一 些 ,以 刺激 一 次 购物 同时 购买 多 种 商品 。 

频繁 项 集 (Frequent Itemset) 是 产生 关联 规则 的 基础 ,因此 在 定义 关联 规则 前 首先 介绍 
频繁 项 集 的 定义 及 其 性 质 。 

定义 8.1: 设 了 为 一 个 由 个 项 组 成 的 集合 三 {4,is，… ,in} 称 为 项 集 (Ttemset)。 

交易 本 为 由 I 中 的 项 组 成 的 子 集 , 即 TCT。 与 集合 的 定义 一 样 ,交易 本 中 同样 不 存在 
重复 的 元 素 。 假 设 这 里 所 涉及 的 交易 和 项 集 的 项 都 已 排序 。 

如 果 交 易 工 包含 项 集 X 中 的 所 有 项 , 即 XCT, 则 称 工 支持 X。TCX) 定 义 为 所 有 支持 
X 的 交易 组 成 的 集合 。 

定义 8.2: 数据 库 D 中 支持 项 集 X 的 交易 所 占 的 比例 称 为 X Tk D 中 的 支持 度 , 记 为 
suppCX) 3X S(X)。 

设 minsup 为 给 定 的 最 小 支持 度 ,如 果 suppCX) Z9 minsup. , 则 称 项 集 X 是 频繁 的 。 一 个 
项 集 的 最 小 支持 度 是 该 项 集 被 认为 是 有 意义 的 ,支持 它 的 交易 占 数据 库 D 中 所 有 交易 总 和 
的 最 小 比例 ,通常 是 根据 经 验 设 定 , 不 具有 最 小 支持 度 的 项 集 被 认为 是 没有 意义 的 。 

定义 8.3: MEUA MKSA KERES. KEH k RRA k= | X Hn 
集 , 记 为 k-itemset。 

频繁 项 集 具 有 以 下 三 个 性 质 ,其 中 性 质 8. 1 和 性 质 8. 3 是 所 有 关联 分 析 算 法 的 基础 。 

性 质 8.1: 子 集 支持 

设 A 和 B 是 两 个 不 同 的 项 集 , 如 果 ACB. 则 supp(A) 宇 supp(B)。 因 为 所 有 支持 B ff 
交易 也 一 定 支 持 A。 
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TEES 8.2. 非 频 繁 项 集 的 超 集 也 一 定 是 非 频繁 的 。 

如 果 A 不 满足 最 小 支持 度 条 件 , 即 suppCA) — minsup. W A 的 每 个 超 集 B 也 不 是 频繁 
的 。 由 性 质 8. 1 可 得 suppCB) S suppCA) &iminsup. PA Ul, B 也 是 非 频繁 的 。 

性 质 8.3: 频繁 项 集 的 子 集 也 是 频繁 的 。 

如 果 项 集 D 是 数据 库 D 中 的 频繁 项 集 , 即 supp(B) 宇 minsup, 则 B 的 每 个 子 集 A 也 是 
频繁 的 。 由 性 质 8. 1 可 得 supp(A) 三 supp(B) 三 minsup ,因此 A 也 是 频繁 的 。 特 别 地 ,如果 
A 是 频繁 的 , 则 它 的 & 个 基数 为 & 一 1 的 子 集 都 是 频繁 的 ; 反之 则 不 成 立 。 

设 I=={i ,is，…,im} 是 有 m 个 不 同 元 素 的 集合 ,T 是 针对 了 的 交易 集合 ,每 一 笔 交易 包 
SUE TUB ISI, XOU dos y XY Hp x 和 YY 是 两 个 不 相交 的 集合 ,X,YCI， 
并 且 XnY-— 9. X 称 为 规则 的 前 提 或 前 项 ,Y 称 为 规则 的 结果 或 后 项 。 每 个 规则 都 有 两 
个 度量 , 即 支持 度 (Support) 和 可 信和 度 (Confidence)。 其 中 ， 

支持 度 定义 为 support (XY) — support (XUY). 

n fi EE EX H confidence( XY) — support X UY) /support (X). 

关联 规则 的 形式 为 R: XY. 

关联 规则 具有 以 下 四 个 性 质 。 

性 质 8.4: 规则 的 非 结 合 

如 果 关 联 规则 X-—Z MYSZ 在 D 中 成 立 , 规 则 XUY 过 2Z 不 一 定 在 D 中 成 立 。 如 果 
XNY= 名 ,并 且 D 中 支持 Z 的 所 有 交易 都 只 支持 X 或 Y, 则 集合 XUYUZ 的 支持 度 为 0， 
因此 XUY-Zz 的 可 信和 度 为 0。 

类 似 地 ,如 果 规 则 X-Y FXS 成 立 , 规 则 X=>YUZ 不 一 定 成 立 。 

性 质 8.5: 规则 的 不 可 分 解 性 

如 果 关 联 规则 XUYSZ 在 中 成 立 ,规则 XSZ MYSZ 不 一 定 在 D 中 成 立 。 例 如 ， 
当 Z 只 出 现在 一 个 交易 中 时 ,如 果 XX 和 YY 也 出 现在 其 中 , 即 supp (XUY) —suppC2 ,规则 
就 是 不 可 分 解 的 。 另 外 ,如 果 XX 与 Y 的 支持 度 与 XY 的 支持 度 相 比 足够 大 ,就 会 使 得 分 解 
后 的 两 个 规则 不 具有 所 要 求 的 可 信 度 ,因而 规则 也 不 可 分 解 。 

因为 supp(XUY) 三 supp(C(XUYUZ) 且 suppC XU 2) ZsuppCX UY U 2) ,所 以 如 果 规 
W XYUZ 成 立 , 则 规则 x-Y 和 X= 一 2 都 成 立 。 由 此 可 得 较 小 规则 的 支持 度 与 可 信 度 与 
原 规 则 相 比 都 有 所 增加 。 

性 质 8.6: 规则 的 不 可 传递 性 

由 关联 规则 X 一 Y 和 Y 一 2 成 立 不 能 推出 规则 X=Z Ir. WE TODCTODCTOD, 
最 小 可 信和 度 为 minconf.confC XY) — confCY—Z) — minconf, 

H TOO C TQO ,可 得 conf (XY) -SCXUYO/SCQY) 

=S(X)/S(Y)=minconf 

由 T(Y)CT(Z), 可 得 conf(Y 一 2Z) 王 SCYUZ)/SCZ) 

=S(Y)/ SCZ) — minconf 

Hi TOO — TC2 ,可 得 confC X2) -SCXU Z)/SC2 — SCO/SCZ) 

由 上 面 三 个 等 式 及 minconf 一 1,. 可 得 conf (X Z) = minconf 一 minconf。 因 此 规则 
XoZWY. 


性 质 8.7: 规则 的 可 扩展 性 
设 项 集 L、A fl B. H BCACL, 如 果 规 则 A 二 >(L 一 A) 不 满足 最 小 可 信和 度 条 件 , 则 
B 过 >(L 一 B) 也 不 满足 最 小 可 信和 度 条 件 。 由 性 质 8. 1 可 得 suppCB) Z supp(A), 再 由 可 信和 度 
的 定义 可 得 conf (B=>(L—B))=supp(L)/supp(B)Ssupp(L)/supp(A)<minconf, 
同 理 可 得 ,对 项 集 L、D WI C.H. DCCCL.D-—0, WRAL OSC 成 立 , 则 规则 
(I. — D) D 也 成 立 。 
当 所 有 频繁 项 集 及 其 支持 度 确 定 后 ,利用 性 质 8. 7 可 以 加 速 规则 的 产生 。 
关联 分 析 旨 在 发 现 支持 度 或 可 信和 度 分 别 大 于 设 定 的 最 小 支持 度 值 和 最 小 可 信 度 值 的 规 
则 。 本 质 上 ,关联 分 析 分 解 成 : 
。 产生 所 有 支持 度 大 于 或 等 于 指定 最 小 支持 度 的 项 集 , 这 些 项 集 称 为 频繁 项 集 , 而 其 
他 的 项 集 则 称 为 非 频繁 项 集 。 

。 对 于 每 个 频繁 项 集 ,产生 可 信和 度 大 于 或 等 于 最 小 可 信和 度 的 规则 , 即 对 于 一 个 频繁 项 
集 工 及 任意 SCL ,如 果 support(L)V/Support(S) 三 minconf, 则 规则 S- (L — S) sk 
是 一 个 正确 规则 。 

关联 分 析 的 主要 算法 包括 R. Agrawal 等 提出 的 AIS, Apriori 及 其 变种 AprioriTid 和 
AprioriHybrid. M. Houtsma 等 提出 的 SETM,J. Park 等 提出 的 DHP,A. Savasere 等 提出 
ff] PARTITION.H. Toivonen 提出 的 Sampling 和 Jiawei Han 提出 的 FP-Growth 等 。 

AIS 算法 的 主要 思想 是 在 扫描 数据 库 的 同时 产生 候选 项 集 并 累计 支持 度 。 有 具体 地 ,在 
对 数据 库 进 行 第 & 次 扫描 时 ,候选 项 集 是 由 第 & 一 1 次 扫描 所 产生 的 边界 集 通 过 增加 当前 事 
务 中 的 项 得 到 ,同时 计算 候选 项 集 元 素 的 支持 度 ,直到 某 次 扫描 所 产生 的 边界 集 为 空 。 主 要 
缺点 是 生成 的 候选 项 集 过 大 。 

SETM 算法 实际 上 是 AIS 的 变种 ,把 候选 集 的 产生 和 累计 分 开 。 在 一 个 线性 存储 结构 
中 存储 了 所 有 候选 集 和 相应 交易 的 标识 符 (TID) 。 每 次 扫描 结束 后 ,不 再 读 取 数 据 库 ,而 是 
对 TID 进行 排序 并 累计 各 个 候选 集 的 支持 度 。 其 主要 思想 是 通过 扫描 候选 项 集 的 编码 代 
蔡 扫描 数据 库 ,实质 上 是 把 数据 库 中 与 支持 度 有 关 的 信息 单独 提取 出 来 ,构成 一 个 较 小 但 充 
分 的 TID 库 , 这 大 大 减少 了 数据 库 访问 时 间 , 不 足 之 处 同样 是 候选 项 集 过 大 。 

Apriori 算法 利用 项 集 的 性 质 对 数据 库 进 行 多 次 扫描 , 即 任意 频繁 项 集 的 子 集 都 是 频繁 
项 集 ; 任意 非 频 繁 项 集 的 超 集 都 是 非 频繁 项 集 。 第 一 次 扫描 数据 库 得 到 频繁 1 项 集 Li ,第 
& 次 扫描 前 先 利 用 上 次 扫描 结果 , 即 频 繁 项 集 Lo- 产生 候选 的 & 项 集 的 集合 Ce, 然后 再 通 
过 扫描 数据 库 确定 对 C 中 每 一 候选 & 项 集 的 支持 度 , 最 后 在 该 次 扫描 结束 时 得 到 频繁 & 项 
EL REE C RL, 为 空 时 终止 。Apriori 产生 的 候选 项 集 比 AIS 少 得 多 ,效率 较 高 。 
Apriori 是 关联 分 析 的 经 典 算法 ,很 多 算法 都 是 其 变种 或 改进 。 

DHP 算法 利用 散 列表 (Hash Table) 产 生 候 选项 集 ,是 对 Apriori 的 直接 改进 。 在 遍历 
一 次 数据 库 得 到 候选 & 项 集 的 支持 度 ,得 到 频繁 & 项 集 后 ,将 每 一 个 事务 的 可 能 的 (十 1) 项 
集 通 过 哈 希 规则 形成 散 列表 。 散 列表 的 每 一 栏 包括 所 有 通过 散 列 规则 映射 到 该 栏 中 的 项 集 
的 数目 。 根 据 结果 的 散 列 表 , 可 以 生成 一 个 位 向 量 , 当 散 列 表 中 对 应 该 栏 的 值 大 于 或 者 等 于 
最 小 支持 度 时 ,对 应 的 位 置 为 1 ,否则 为 0。 利用 该 向 量 可 以 过 滤 掉 下 一 次 生成 候选 时 不 必 
要 的 项 集 , 即 如 果 某 候选 项 在 向 量 中 对 应 位 置 的 值 为 0, 则 舍弃 ,这 对 候选 2 项 集 的 产生 尤 
为 有 效 , 可 以 在 第 二 次 扫描 时 就 大 大 减 小 候选 项 集 的 规模 。 在 某 些 场 合 ,DHP 的 效率 比 
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Apriori 明显 提高 。 

PARTITION 算法 主要 针对 大 型 数据 库 , 分 为 两 个 步骤 其 一 将 目标 数据 库 分 为 n 个 互 
不 相交 的 子 数据 库 Di ,D;,…,D, ,每 个 D;(i 二 1,2,…,n) 都 能 存储 在 内 存 中 。 然 后 逐一 把 
D; 读 入 内 存 并 按 一 般 算法 发 现 频繁 项 集 L;; 再 把 所 有 的 Li 合并 为 数据 库 的 潜在 频繁 项 
f£; 其 二 计算 潜在 频繁 项 集 在 数据 库 中 的 支持 度 ,得 到 频繁 项 集 工 。 

Sampling 算法 的 主要 思想 是 对 数据 库 D 进行 随机 抽样 得 到 抽样 数据 库 D', 先 以 小 于 
指定 的 最 小 支持 度 挖掘 D' 的 频繁 项 集 工 ,再 在 剩余 数据 集 D 一 D' 中 继续 计算 工 中 各 元 素 
的 支持 度 , 最 后 再 以 最 小 支持 度 求 出 二 。 对 于 大 部 分 情况 可 以 得 到 所 有 的 频繁 项 集 ,但 有 时 
会 漏 掉 一 些 。 可 以 对 数据 库 进 行 二 次 扫描 得 到 漏 掉 的 频繁 项 集 。 多 数 情 况 下 ,此 算法 只 需 
扫描 数据 库 一 次 ,最 坏 也 只 需 扫 描 两 次 。 

FP-growth 算法 主要 是 采用 一 种 新 的 数据 结构 FP-tree, 克 服 Apriori 产生 候选 项 集 的 
缺点 。 该 算法 只 扫描 数据 库 两 次 ,并 且 不 用 产生 候选 项 集 , 提 高 了 效率 。 

下 面 着 重 介 绍 Apriori 和 FP-growth 算法 。 


8.2 Apriori 


R. Agrawal 等 在 1994 年 提出 了 著名 的 Apriori 算法 ,这 是 一 种 最 有 影响 的 挖掘 布尔 关 
联 规则 频繁 项 集 的 算法 ,得 名 于 算法 使 用 了 频繁 项 集 性 质 的 先 验 知识 。 

Apriori 包含 由 候选 项 集 (Candidate Itemset) 产 生 频繁 项 集 (Frequent Itemset) ,由 频繁 
项 集 产 生 强 关联 规则 (Strong Association Rule) 两 个 步骤 。 

A priori 使 用 逐 层 搜索 的 迭代 方法 ,通过 对 数据 库 的 多 次 扫描 发 现 所 有 的 频繁 项 集 。 在 
每 一 次 扫描 中 只 考虑 具有 同一 长 度 &( 即 项 集中 所 含 项 的 个 数 ) 的 所 有 项 集 。 算 法 的 第 一 次 
扫描 仅仅 计算 每 个 项 具体 值 的 数量 ,确定 长 度 为 1 的 频繁 项 集 。 在 后 继 的 每 次 扫描 中 ,首先 
使 用 前 一 次 扫描 中 找到 的 频繁 项 集 Li 和 A priori-gen 函数 产生 候选 项 集 gq, 接 着 扫描 数据 
库 , 计 算 C 中 候选 项 集 的 支持 度 , 最 后 确定 哪些 候选 项 集成 为 真正 的 频繁 项 集 。 重复 上 述 
过 程 直 到 再 没有 新 的 频繁 项 集 出 现 。 

Apriori 算法 中 ,使 用 逐 层 近代 找 出 频繁 项 集 的 过 程 描述 如 下 : 


输入 : 事务 数据 库 D, 最 小 支持 度 阔 值 
输出 : D 中 的 频繁 项 集 工 


1 Begin 
2 L1 = (large 1- itemset); /* 生 成 含有 1 项 的 频繁 集 * / 

3 For (k=2; LIk-1 天 @; k++) Do 

4 Begin 

5 Ck = apriori- gen(Lk- 1); 

6 For all transition t€ D Do 

7 Begin 

8 Ct = subset (Ck, t); /* 产生 事务 上 中 包含 的 x 项 集 ct* / 
9 For all Candidate cE Ct Do 

10 c. count++ ; /x 计数 */ 

11 End; 


12 Lk= (c € Ck | c.count 二 min_sup} 


13 End; 
14 Answer = Lk; 
15 End 


产生 候选 项 集 的 过 程 描述 如 下 : 
假定 Li-! 中 各 项 按 某 一 次 序 排列 ,候选 项 集 的 产生 由 以 下 两 个 步骤 组 合 而 成 。 
连接 步骤 : Apriori-gen(Lk-1) 的 连接 。 
Begin 
insert into Ck 
select p. iteml, p.item2, .… ,p. itemk— 1, q.itemk- 1 
from Lk- 1,p, Lk - 1,q 
where p. iteml = q.iteml, p. item2 = q.item2 ,.-,p.itemk- 2- q.itemk- 2, p.itemk- 1< q. 
itemk- il; 
End; 


剪 枝 步骤 : Apriori-gen 的 剪 枝 。 


For all itemsets c€ Ck Do 
For all (k- 1) - subsets s of c Do 
if (s 不 属于 Lk - 1) then 
delete c from Ck; 
Apriori 首先 产生 频繁 1- 项 集 Li ,然后 是 频繁 2- 项 集 L HIAR r 值 使 得 L, 为 空 ， 
则 算法 停止 。 其 中 第 次 循环 中 ,首先 产生 候选 -项 集 的 集合 C, ,Ci 中 的 每 一 个 项 集 是 对 
两 个 只 有 一 个 项 不 同 的 属于 工 ,_ 的 频繁 集 做 一 个 (&-2)- 连 接 产生 的 。L, 中 的 项 集 是 用 来 
产生 频繁 项 集 的 候选 项 集 , 最 后 的 频繁 项 集 Le 必须 是 C 的 一 个 子 集 。C 中 的 每 个 元 素 需 
在 交易 数据 库 中 进行 验证 决定 其 是 否 加 入 Lx, 这 里 的 验证 过 程 是 算法 性 能 的 一 个 瓶颈 。 这 
一 方法 要 求 多 次 扫描 可 能 很 大 的 交易 数据 库 。Apriori-gen 的 剪 枝 用 来 删除 候选 Li 中 项 集 
的 子 集 不 是 频繁 项 集 的 集合 。 
对 于 具有 一 定 规 模 的 事务 数据 库 而 言 , 其 蕴涵 的 候选 项 集 数量 特别 巨大 ,同时 一 个 事务 
内 部 也 可 能 蕴涵 许多 的 候选 项 集 ,这 些 成 为 制约 Apriori 算法 性 能 的 主要 因素 。 
下 面 通过 一 个 实例 说 明 Apriori 算法 的 实现 过 程 。 
CD 设 一 个 小 型 的 交易 数据 库 D, 如 表 8. 1 所 示 , 设 定 最 小 支持 度 国 值 为 2。 
表 8.1 交易 数据 库 DD 


交易 号 项 集合 交易 号 项 集合 
TI 11,12,15 T6 12,13 
T2 12,14 T7 11,13 
T3 12,13 T8 11,12,13,I5 
T4 11,12,14 T9 11,12,13 
T5 11,13 


(2) 扫描 数据 库 D, 对 每 个 候选 项 计数 ,生成 C ,如 表 8.2 所 示 。 
CD. 比较 候选 项 支持 度 计数 与 最 小 支持 度 ,生成 Li ,如 表 8.3 所 示 。 
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表 8.2 0€ 表 8.3 L 
项 集 支持 度 计数 项 集 支持 度 计数 
(n) 6 mnm 6 
{12} 7 {I2} 
{13} 6 {13} 6 
(4) 2 {14} 2 
(5) 2 {I5} 2 
(4) 由 工 产生 候选 项 集 C, ,如 表 8. 4 所 示 。 
(5) 再 次 扫描 数据 库 D, 对 每 个 候选 项 计数 ,产生 Lo. WK 8.5 所 示 。 
(6) 对 Lo 进行 连接 和 剪 枝 ,产生 C, 即 最 终结 果 , 如 表 8.6 所 示 。 
表 8.4 C, X 8.5 L, 
项 集 项 集 支持 度 计 数 
(1,12) (1,12) 4 
(1,13) (1,13) 4 
(1.4) (1,15) 2 
(12,13) 4 
ur (12,14) 2 
{12,13} {12,15} 2 
(2,14) 
(12,15) 表 8.6 € 
{13,14} 项 集 
{13,15} {11,12,13} 
{14,15} (1.12.15) 


其 中 ,L; 的 连接 与 剪 枝 产 生 Cs 的 过 程 如 下 : 

连接 运算 : 
C, —LcoL; 

— (1.12) 1,13) (01,15) (2,13) (12,14) (12,15) )e9 

(1,12) ,O1:I3) 1,15) (02.13) 02,14) (2,15]) 

—((1.12,13) (11,1215) (11.13.15) .(12,13,14) (12.13.14) (12.13.15) (12,14, I15)) 

剪 枝 运算 : 

{ 刀 ,TI2,T3} 的 2-3 55 8 (11,12) (11, I3) (I2, I3). 

{11,12,13 HRA 2- 项 子 集 都 是 L 的 元 素 。 因 此 ,保留 {了 1,12,13} 在 C， 中 。 

{12,13,15) 的 2- 项 子 集 是 {12,13}、{12,15} 和 {13,15)。 

{13,15}) 不 是 L: 的 元 素 ,因而 不 是 频繁 的 。 因 此 ,删除 Cs 中 的 {12,13,15)。 

依 此 类 推 ,前 枝 后 Cs — (£3.12, 13)  (I1.12,15)3. 

Apriori 的 另 一 个 实例 如 图 8. 1 所 示 ,其 中 最 小 支持 度 阔 值 为 2。 

Apriori 利用 候选 项 集 和 频繁 项 集 的 相互 作用 ,得 到 了 全 部 频繁 项 集 , 并 通过 对 候选 项 
集 的 剪 枝 , 大 大 地 减少 了 候选 项 集 的 规模 ,获得 了 令 人 满意 的 结果 。 然 而 ,当面 对 挖掘 对 象 
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数据 库 D [o^ L 


编号 m 第 一次 扫 项 集 | 支持 度 项 集 | 支持 度 
1 | 13.4 | 描 数 据 库 | 0D 2 ela 
2 2,3,5 =>] 3 ==] w 3 
3 1,2,3,5 133 3 3) 3 
4 25 uj 1 {5} 3 
{5} 3 
C; bL 
项 集 | 支持 度 项 集 | 支持 度 
ER ü2| 1 ü3] 2 
Ad {1,3} 2 (231 2 
> ma] —"[en[3 
{2,3} 2 {3,5} 2 
{2,5} | 3 
{3,5} | 2 
NIE 项 集 | 支持 度 项 集 [支持 度 | 
{2,3,5}| 2 ——À!1035)| 2 


图 8.1 Apriori 算法 实例 


具有 众多 的 频繁 模式 .长 模式 或 者 用 户 给 定 的 最 小 支持 度 的 阔 值 较 低 时 ,Apriori 仍然 可 能 
因为 以 下 两 个 方面 的 巨大 开销 而 面临 困境 。 

(1) 在 处 理 大 量 的 候选 项 集 方面 ,如 果 算 法 得 到 了 大 量 的 频繁 1- 项 集 Li , 则 在 产生 候选 
项 集 Cs 时 ,会 遇 到 C. 难以 处 理 的 情况 。 例 如 假设 算法 得 到 的 频繁 1- 项 集 La 的 数量 是 
10* , 则 根据 Apriori 算法 ,产生 的 2- 项 候选 项 集 数量 超过 107 ,由 于 候选 项 集 C, 没有 剪 枝 ， 
所 有 候选 项 集 都 需要 检验 。 此 外 ,在 面 对 频 繁 模式 的 规模 较 大 时 ,同样 会 产生 大 量 的 候选 项 
集 需 要 检验 。 在 内 存 等 其 他 条 件 均 为 理想 状态 的 情况 下 ,这 种 由 产生 候选 项 集 所 产生 的 开 
销 , 无 论 采 用 什么 技术 都 无 法 回避 。 所 以 ,在 有 大 量 候选 项 集 产生 的 情况 下 ,Apriori 算法 基 
本 无 法 运行 。 

(2) 采 用 的 模式 匹配 方式 ,在 检测 大 量 的 候选 项 集 ,特别 是 在 挖掘 长 模式 时 ,对 数据 库 的 
重复 扫描 非常 费时 ,大 量 时 间 消 耗 在 内 存 与 数据 库 的 数据 交换 上 。 

由 于 上 述 原 因 , 可 以 发 现 Apriori 算法 的 瓶颈 是 候选 项 集 的 产生 和 测试 过 程 。 如 果 有 
一 种 算法 能 够 对 产生 大 量 的 候选 项 集 进行 有 效 的 控制 ,将 会 极 大 地 减少 时 间 开 销 。 

由 于 依赖 从 候选 项 集 产生 频繁 项 集 的 Apriori 类 算法 具有 先天 的 弱点 ,使 得 基于 
Apriori 类 算法 的 应 用 没有 实质 性 突破 。Jiawei Han 等 提出 了 一 种 采用 压缩 的 数据 结构 
(FP-tree) 存 储 关联 规则 挖掘 所 需 的 全 部 数据 的 新 方法 ,通过 对 源 数据 的 两 次 扫描 ,将 数据 
存储 到 FP-tree 结构 ,避免 产生 候选 项 集 , 极 大 地 减少 了 数据 交换 和 频繁 匹配 的 开销 , 即 所 
谓 的 无 候选 项 集 产 生 (Frequent Patterns Growth,FP-Growth) 算 法 。 
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8.3 FP-Growth 


FP-Growth 克服 了 必须 产生 候选 项 集 的 限制 ,提出 关联 规则 挖掘 的 新 思路 ,主要 改进 
体现 在 : 

。 构造 一 种 新 颖 的 、 紧 凑 的 数据 结构 FP-tree。 它 是 一 种 扩展 的 前 级 树 结构 ,存储 关于 
频繁 模式 数量 的 重要 信息 。 树 中 只 包含 长 度 为 1 的 频繁 项 作为 叶 结 点 ,并且 那 些 频 
度 高 的 结 点 更 靠近 树 的 根 结 点 ,因此 频 度 高 的 项 比 那 些 频 度 低 的 项 有 更 多 的 机 会 共 
享 同一 个 结 点 。 
开发 基于 FP-tree 的 模式 片断 成 长 算法 ,从 长 度 为 1 的 频繁 模式 开始 ,只 检查 它 的 条 
件 模式 及 构建 它 的 条 件 模式 树 ,并 且 在 这 个 树 上 递归 地 执行 挖掘 。 模 式 的 成 长 通过 
联合 条 件 模式 树 新 产生 的 后 绥 模 式 实现 。 由 于 事务 处 理 中 的 频繁 项 都 对 应 着 频繁 
树 中 的 路 径 进 行 编码 ,模式 的 成 长 确保 了 结果 的 完整 性 。 因 此 ,FP-Growth 不 像 
Apriori 那样 需要 产生 再 测试 。 挖 掘 的 主要 操作 是 计算 累加 值 和 调整 前 级 树 , 这 种 
开销 通常 远 远 小 于 Apriori 类 算法 中 候选 项 集 的 产生 和 模式 匹配 操作 。 
采用 基于 分 区 的 搜索 ,通过 分 割 ,而 不 是 Apriori 类 算法 的 自 下 向 上 地 产生 频繁 模式 
的 集合 。 将 发 现 长 频繁 模式 的 问题 转化 为 寻找 短 模式 ,然后 再 用 后 绥 连 接 的 方法 ， 
避免 产生 长 的 候选 项 集 。 

FP-tree 的 结构 包括 一 个 标识 成 null 的 根 一 个 由 频繁 项 组 成 的 头 表 和 一 组 项 的 前 级 子 树 
组 成 根 的 子孙 。 树 中 的 每 个 结 点 包括 项 名 (Itemname)、 计 数 (Count) 和 结 点 链接 (Node Link) 
三 个 域 。 其 中 ,项 名 标识 结 点 所 代表 的 项 ; 计数 标识 树 中 到 达 这 个 结 点 的 路 径 所 代表 的 事务 
处 理 的 数目 ; 结 点 链接 指向 树 中 下 一 个 同名 结 点 ,如 果 没 有 同名 结 点 则 指向 空 。 头 表 的 每 条 
记录 包含 两 个 域 , 即 项 名 和 结 点 链接 的 头 。 结 点 链接 的 头 指向 树 中 第 一 个 同名 的 结 点 。 

FP-tree 只 保存 满足 最 小 支持 度 的 项 的 集合 。 所 以 ,首先 需要 知道 哪些 项 符合 条 件 , 即 
构造 头 表 。 对 数据 库 进 行 第 一 次 扫描 得 到 满足 最 小 支持 度 的 项 并 按 降序 排列 在 头 表 中 。 在 
得 到 头 表 之 后 ,对 数据 库 进 行 第 二 次 扫描 ,对 每 个 事务 处 理 包含 的 频繁 项 按照 其 在 头 表 的 先 
后 顺序 插入 到 树 。 插 入 到 树 的 事务 处 理 的 频繁 项 自然 是 树 的 一 个 路 径 ,但 如 果树 中 存在 其 
他 与 新 路 径 完全 相同 或 部 分 相同 的 路 径 , 则 需要 将 两 个 路 径 全 部 或 部 分 合并 ,将 事务 处 理 插 
入 到 FP-tree 中 的 函数 insert-tree([p/P],T) 是 算法 中 一 个 非常 关键 的 部 分 。 

FP-tree 是 一 个 高 度 压缩 的 结构 ,存储 用 于 频繁 模式 挖掘 的 全 部 信息 ,由 于 一 个 以 al 作 
为 前 级 的 单一 路 径 a mas om a, 代表 所 有 那些 最 大 的 频繁 集 形式 为 ai 一 as 一 … 一 
a, C en) f SA IER «fr DL FP-tree 远 远 小 于 源 数据 和 在 关联 规则 挖掘 过 程 中 产生 的 候 
选项 集 的 大 小 。 同 时 ,频繁 项 集中 的 项 以 支持 度 降序 排列 ,支持 度 越 高 的 项 与 FP-tree WAR 
越 接近 ,因此 有 更 多 的 项 是 共享 的 。 

FP-Growth 算法 描述 如 下 : 

输入 : 事务 数据 库 D, 最 小 支持 度 阅 值 minsup 

输出 : 全 部 频繁 项 的 集合 

1. 构造 FP- tree 


扫描 数据 库 一 次 .得 到 频繁 项 的 集合 F 和 其 支持 度 ,按照 支持 度 对 F 降序 排序 ,产生 频繁 项 表 工 . 
创建 FP tree 的 根 结 点 ,标记 为 Null. 对 于 数据 库 的 每 一 个 事务 ,选择 频繁 项 ,并 按 工 中 的 次 序 排序 . 


设 排序 后 的 频繁 项 表 为 [p/P], 其 中 p 是 第 一 个 元 素 ,而 了 是 剩余 元 素 的 表 .调用 insert- tree([p/ 
P],T) .该 过 程 执行 情况 如 下 : 如 果 T 有 子女 N 使 得 N. item- name = p. item- name, 则 的 计数 加 1; 
否则 创建 一 个 新 结 点 N, 将 其 计数 设置 为 1, 链 接 到 其 父 结 点 T, 并 且 通 过 结 点 链 结构 将 其 链接 到 具有 
相同 项 名 的 结 点 ; 如 果 了 非 空 ,递归 调用 insert- tree(P, N). 
2. 在 本 树 中 挖掘 频繁 模式 
输入 : 事务 数据 库 D 的 FP 树 和 最 小 支持 度 阔 值 ninsup 
输出 : 所 有 的 频繁 模式 的 集合 
方法 : 调用 FP- Growth (FP - Tree, null) 
Procedure FP - Growth (Tree, a) 
if (Tree 只 包含 单 路 径 P) then 
对 路 径 P 中 结 点 的 每 个 组 合 ( 记 为 B) 
生成 模式 BU a, 支持 度 =B 中 所 有 结 点 的 最 小 支持 度 
else 对 Tree 头 上 的 每 个 ai do 
生成 模式 B= ai Ua, ZFFE = ai. support; 
构造 B 的 条 件 模式 库 和 有 的 条 件 FP RE Treeg; 
if Treeg# $ 
then call FP- Growth (Treeg, B) 


这 是 一 个 递归 调用 函数 ,根据 FP-tree (f Joi PE 8E F 46 E PRÉCISE USURIS SE SE BO (C 9E 1 
可 以 得 到 所 有 满足 条 件 的 频繁 项 集 。 
假设 最 小 支持 度 冰 值 为 0. 5 ,交易 数据 库 如 表 8.7 所 示 。 


R87 交易 数据 库 
交易 编号 购 物 项 排序 后 的 频繁 项 
100 fayc,d,g,i,m,p fycyaymyp 
200 asb,c,f,l,m,o f,c,a,b,m 
300 b,f,h,j,o f,b 
400 b.c.k.s.p cyb,p 
500 af,cye'1,p,myn fcyaymyp 


第 一 次 扫描 数据 库 ,得 到 频繁 1 项 集 , 然 后 按照 频 度 降序 排列 。 再 次 扫描 数据 库 , 生 成 
的 FP-tree 如 图 8. 2 所 示 。 


»3|s|s|ol^ 5 


8.2 生成 的 FP-tree 


由 图 8. 2 可 知 ,对 任意 频繁 项 a;, 顺 着 a; 的 结 点 链 , 从 a; 的 头 开 始 ,可 以 找到 包含 a; 的 
所 有 频繁 模式 。 
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随 着 Internet 的 巨大 发 展 , 数 以 亿 计 的 静态 网 页 和 动态 网 页 汇聚 了 人 类 无 穷 的 智慧 ， 
海量 Web 数据 包含 了 无 数 的 链接 访问 路 径 和 内 容 。 据 统计 ,目前 全 世界 将 近 90% 的 
信息 是 Web, 而 且 其 数量 和 重要 性 仍 在 与 日 俱 增 。Web 具有 异 构 、 半 结构 化 和 动态 等 
特点 。 

1. 异 构 

从 数据 库 的 角度 , Web 网 站 上 的 信息 也 可 以 看 作 一 个 数据 库 , 一 个 更 大 、 更 复杂 的 数据 
库 。 每 一 个 Web 站 点 就 是 一 个 数据 源 , 每 个 数据 源 都 是 异 构 的 ,因而 每 一 站 点 之 间 的 信息 
和 组 织 都 不 一 样 ,这 就 构成 了 一 个 巨大 的 异 构 数据 库 环境 。 如 果 想 要 利用 这 些 Web 进行 挖 
气 , 首 先 ,必须 要 研究 站 点 之 间 异 构 Web. 的 集成 问题 ,只 有 将 它们 都 集成 起 来 ,提供 给 用 户 
一 个 统一 视图 , 才 有 可 能 从 巨大 的 数据 源 中 获取 所 需 的 东西 。 其 次 ,还 要 解决 Web 查询 问 
题 ,因为 如 果 所 需 的 Web 无 法 获取 ,对 它们 的 分 析 、 集 成 和 处 理 就 无 从 谈 起 。 

2. 半 结 构 化 

Web 与 传统 的 数据 库 中 的 数据 不 同 , 传 统 的 数据 库 都 有 一 定 的 数据 模型 ,可 以 根据 
模型 具体 描述 特定 的 数据 。 而 Web 非常 复杂 ,没有 特定 的 模型 描述 ,每 一 站 点 的 Web 都 
各 自 独 立 , 并 且 本 身 具 有 自述 性 和 动态 可 变性 。 因 而 .Web 虽 具 有 一 定 的 结构 性 ,但 因 自 
述 性 的 存在 , 故 蚌 一 种 非 完全 结构 化 的 数据 , 称 为 半 结 构 化 数据 。 半 结构 化 是 Web 的 最 大 
特点 。 

3. 动态 性 

Web 不 仅 每 天 都 以 极 快 的 速度 增长 ,而 且 也 在 不 断 地 动态 变化 。 因 此 需要 借助 数据 仓 
库 技术 ,以 保存 动态 更 新 的 Web。 

综 上 所 述 ,从 海量 Web 中 真正 发 现 知识 存在 一 定 的 困难 ,主要 体现 在 : 

(1) Web 数量 太 庞大 ,例如 Web Informall 达 15TB, 而 且 仍 在 迅速 增加 。 

(2) Web 复杂 性 高 于 任何 传统 的 文本 ,例如 Web 分 类 需要 预 处 理 , Web 缺乏 统一 的 结 
Tj. Web 可 以 被 看 作 一 个 巨大 的 数字 图 书馆 .然而 这 一 图 书馆 中 的 大 量 信 息 并 没有 按照 任 
何 排序 进行 组 织 ,没有 分 类 索引 ,更 没有 标题 ,作者 靡 页 和 目次 等 索引 ,在 其 中 搜索 所 需 信 息 
极 具 挑战 性 。 

(3) Web 面向 广泛 的 用 户 群 , 且 仍 在 不 断 扩展 。 不 同 用 户 有 着 不 同 的 背景 兴趣 和 使 用 
目的 。 大 部 分 用 户 并 不 了 解 Web 的 结构 .不 清楚 搜索 的 高 昂 代价 , 极 易 在 “黑暗 ”中 迷失 方 
向 ,在 “跳跃 式 ” 访 问 中 烦 乱 不 已 和 在 等 待 中 失去 耐心 。 

(4) Web 只 有 很 少 的 一 部 分 是 相关 或 有 用 的 。 据 说 99% 的 Web 相对 于 99% 的 用 户 是 
无 用 的 ,虽然 这 看 起 来 不 是 很 明显 ,但 每 个 人 只 关心 很 小 一 部 分 Web 确 是 事实 。 

由 于 Web 的 复杂 性 和 动态 性 ,难以 搜索 、 发 现 和 利用 Web 中 蕴藏 的 大 量 知识 ,因此 
Web 挖掘 是 知识 发 现 领域 的 重要 课题 之 一 。 


9.1 概述 


9.1.1 定义 和 分 类 


TEX 

Web 挖掘 由 数据 挖掘 发 展 而 来 ,但 Web 挖掘 比 传统 的 数据 挖掘 复杂 ,涉及 数据 挖掘 、 
计算 机 语言 学 和 信息 科学 等 多 领域 。 研 究 者 从 不 同 的 角度 出 发 ,对 Web 挖掘 的 定义 有 所 
不 同 。 

各 种 文献 中 ,常见 的 Web 挖掘 定义 包括 如 下 几 个 方面 。 

1) 描述 性 的 定义 

Web 挖掘 是 指使 用 数据 挖掘 技术 在 WWW 数据 中 发 现 潜在 的 、 有 用 的 模式 或 信息 。 
Web 挖掘 是 一 项 综合 技术 ,覆盖 了 多 个 研究 领域 ,包括 Web 技术 、 数 据 库 数据 挖掘 、 计 算 
语言 学 .信息 获 取 、 统 计 学 以 及 人 工 智能 等 。 

2) 抽象 化 的 定义 

一 般 地 ,Web 挖掘 是 指 从 大 量 Web 集合 C 中 发 现 隐 含 的 模式 户 。 如 果 将 C 看 作 输入 ， 
将 户 看 作 输 出 , 则 Web 挖掘 就 是 一 个 从 输入 到 输出 的 映射 , 即 E: C> p. 

3) 概括 性 的 定义 

Web 挖掘 是 从 与 WWW 相关 的 资源 和 行为 中 抽取 感 兴趣 的 、 潜 在 的 有 用 的 模式 和 隐 
含 信息 。 

Web 挖掘 可 在 很 多 方面 发 挥 作用 ,如 搜索 引擎 结构 挖掘 \ 确 定 权威 页 面 、Web 文档 分 
类 、Web 日 志 挖 气 和 智能 检索 等 。 

2. 分 类 

根据 兴趣 的 不 同 ,一 般 的 Web 挖掘 分 为 Web 内 容 挖 气 (Web Content Mining)、Web 结 
构 控 掘 (Web Structure Mining) 和 Web 使 用 挖掘 (Web Usage Mining) 三 类 ,如 图 9. 1 
所 示 。 


Web 挖 气 
(Web Mining) 


Web 内 容 挖掘 Web 结 构 挖掘 Web 使 用 挖掘 
(Web Content (Web Structure (Web Usage 
Mining) Mining) Mining) 


Web 页 面 内 容 挖 据 搜索 结果 挖掘 一 般 访问 模式 追踪 定制 使 用 追踪 
(Web Page Content (Search Result (General Access (Customized Usage 
Mining) Mining) Pattern Tracking) Tracking) 


图 9.1 Web 挖掘 的 分 类 
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1) Web 内 容 挖 掘 

Web 内 容 挖掘 是 指 从 Web 内 容 中 发 现 有 用 信息 , Web 信息 五 花 八 门 ,如 政府 信息 服 
务 、 数 字 图 书馆 .电子 商务 数据 以 及 其 他 各 种 通过 Web 访问 的 数据 库 。Web 内 容 挖掘 对 象 
包括 文本 、 图 像 、 音 频 、 视 频 、 多 媒体 和 其 他 各 种 类 型 的 数据 ,其 中 针对 非 结 构 化 文本 的 Web 
挖掘 被 归 类 到 基于 文本 的 知识 发 现 , 也 称 文本 数据 挖掘 或 文本 挖掘 。 现 在 , Web 多 媒体 数 
据 挖掘 成 为 一 个 热点 。 

一 般 地 , Web 内 容 挖掘 可 以 从 两 种 不 同 的 角度 展开 。 从 资源 查找 (Information 
Retrieval,IR) 的 角度 看 ,Web 内 容 挖掘 的 任务 是 从 用 户 的 角度 出 发 ,提高 信息 质量 和 帮助 
用 户 过 滤 信 息 ; 从 数据 库 的 角度 看 ,Web 内 容 挖掘 的 任务 主要 是 对 Web 数据 进行 集成 、 建 
模 , 以 支持 复杂 的 Web 查询 。 

(1) 从 资源 查找 的 角度 挖掘 非 结 构 化 文档 

非 结构 化 文档 主要 指 Web 上 的 自由 文本 ,包括 小 说 .新 闻 等 。 在 这 方面 的 研究 相对 比 
较 多 ,大 部 分 研究 都 是 建立 在 词汇 袋 (Bag of Words) 或 向 量 表示 法 (Vector Representation) 
的 基础 上 ,这 些 方法 将 单个 词汇 看 成 文档 集合 中 的 属性 ,只 从 统计 的 角度 将 词汇 孤立 地 看 待 
而 忽略 该 词汇 出 现 的 位 置 和 上 下 文 环境 。 属 性 可 以 是 布尔 型 , 即 词汇 是 否 在 文档 中 出 现 ，; 
也 可 以 是 频 度 , 即 词汇 在 文档 中 的 出 现 频率 。 词 汇 袋 方法 的 一 个 弊端 是 自由 文本 中 的 词汇 
量 非常 大 ,难以 处 理 。 为 了 解决 上 述 问题 ,可 采用 信息 增益 、 交 叉 炉 和 差异 比 等 方法 减少 属 
性 。 另 外 ,一 种 比较 有 意义 的 方法 是 潜在 语义 索引 (Latent Semantic Indexing) ,通过 分 析 不 
同文 档 中 相同 主题 的 共享 词汇 ,找到 其 共同 的 词根 ,利用 公共 词根 代替 所 有 词汇 ,以 此 减少 
维 空间 ,例如 informing, information, informer 和 informed 可 以 用 它们 的 词根 “inform” 表 
示 , 这 样 可 以 减少 属性 集合 的 规模 。 

其 他 的 属性 表示 法 还 包括 词汇 在 文档 中 的 出 现 位 置 .层次 关系 、 使 用 短语, 使 用 术语 和 
命名 实体 等 。 目 前 还 没有 研究 表明 一 种 表示 法 明显 优 于 另 一 种 。 

(2) 从 资源 查找 的 角度 挖掘 半 结 构 化 文档 

与 非 结构 化 文档 相 比 ,Web 上 的 半 结 构 化 文档 挖掘 是 指 对 加 入 了 HTML、 超 链接 等 附 
加 结构 的 信息 进行 挖掘 ,其 应 用 包括 超 链 接 文本 的 分 类 、 聚 类 ,发现 文档 之 间 的 关系 以 及 提 
取 半 结构 化 文档 中 的 模式 和 规则 等 。 

(3) 从 数据 库 的 角度 挖掘 非 结构 化 文档 

数据 库 技术 应 用 于 Web 挖掘 主要 是 为 了 解决 Web 信息 的 管理 和 查询 。 这 些 问 题 可 以 
分 为 三 类 : Web 信息 的 建 模 和 查询 ; 信息 抽取 与 集成 ; Web 站 点 构建 和 重 构 。 

从 数据 库 的 观点 进行 Web 内 容 挖掘 主要 是 建立 Web 站 点 的 数据 模型 并 集成 ,以 支持 
复杂 查询 ,而 不 只 是 简单 的 基于 关键 词 的 搜索 。 这 要 通过 找到 Web 文档 的 模式 、 建 立 Web 
数据 仓库 或 Web 知识 库 或 虚拟 数据 库 实现 。 

主要 利用 OEM(Object Exchange Model, 对 象 交 换 模型 ) 将 半 结 构 化 数据 表示 成 标识 
图 。OEM 的 每 个 对 象 都 有 对 象 标识 (OID) 和 值 , 值 可 以 是 原子 类 型 ,如 整 型 .字符 串 .gif 和 
html 等 ,也 可 以 是 一 个 复合 类 型 ,以 对 象 引用 集合 的 形式 表示 。 由 于 Web 数量 非常 庞大 ， 
从 应 用 的 角度 考虑 ,很 多 研究 只 处 理 半 结构 化 数据 的 一 个 常用 子 集 。 一 些 有 意义 的 应 用 是 
建立 多 层 数 据 库 , 每 一 层 是 其 下 面 层 次 的 概 化 ,这 样 则 可 以 进行 一 些 特殊 的 查询 和 信息 处 
理 。 由 于 数据 的 表示 方法 较 特殊 ,其 中 包含 了 关系 层次 和 图 形 化 的 数据 ,所 以 大 部 分 建立 在 


扁平 数据 集合 之 上 的 数据 挖掘 方法 不 能 直接 使 用 ,目前 已 经 开展 针对 多 层 数 据 库 挖掘 算法 
的 研究 。 

2) Web 结构 挖掘 

Web 结构 挖掘 的 对 象 是 Web 本 身 的 超 链接 , 即 对 Web 文档 结构 的 挖掘 。 对 于 给 定 的 
Web 文档 集合 ,应 该 能 够 通过 算法 发 现 它 们 之 间 连 接 情况 的 有 用 信息 ,文档 之 间 的 超 链 接 
反映 包含 .引用 或 者 从 属 关系 ,引用 文档 对 被 引用 文档 的 说 明 往往 更 客观 、 更 概括 和 更 准确 。 

Web 结构 挖掘 在 一 定 程度 上 得 益 于 社会 网 络 和 引用 分 析 的 研究 。 把 Web 之 间 的 关系 
分 为 incoming 和 outgoing 连接 ,运用 引用 分 析 方法 找到 同一 网 站 内 部 以 及 不 同 网 站 之 间 的 
链接 关系 。 在 Web 结构 挖掘 领域 最 著名 的 算法 是 HITS 和 PageRank 算法 ,其 共同 点 是 通 
过 计算 Web 之 间 超 链接 的 质量 ,从 而 得 到 页 面 权重 。 著 名 的 Google 搜索 引擎 采用 了 该 类 
算法 。 此 外 ,Web 结构 挖掘 的 另 一 个 尝试 是 在 Web 数据 仓库 环境 下 ,通过 检查 同一 台 服 务 
器 上 的 本 地 连接 衡量 Web 结构 ,挖掘 Web 站 点 的 完全 性 ,在 不 同 的 Web 数据 仓库 中 检查 
副本 以 帮助 定位 镜像 站 点 ,通过 发 现 针 对 某 一 特定 领域 的 超 链 接 的 层次 属性 探索 信息 流动 
如 何 影响 Web 站 点 的 设计 。 

3) Web 使 用 挖掘 

即 Web 使 用 记录 挖掘 ,在 电子 商务 领域 具有 重要 意义 。 它 通过 挖掘 相关 的 Web 日 志 ， 
发 现 用 户 访问 Web 页 面 的 模式 ,通过 分 析 日 志 , 可 以 识别 用 户 的 忠诚 度 、 喜 好 和 满意 度 ,可 
以 发 现 潜在 用 户 ,增强 站 点 的 服务 竞争 力 。 除 了 服务 器 的 日 志 外 ,还 包括 代理 服务 器 日 志 、 
浏览 器 端 日 志 、 注 册 人 信息、 用户 会 话 信息 、 交 易 信息 、Cookie 中 的 信息 、 用 户 查 询 和 鼠标 点 击 
流 等 一 切 用 户 与 站 点 之 间 可 能 的 交互 记录 。 可 见 Web 使 用 记录 的 数据 量 非常 巨大 ,而 且 数 
据 类 型 也 相当 丰富 。 

根据 对 数据 源 的 处 理 方 法 不 同 , Web 使 用 挖掘 可 以 分 为 两 类 : 其 一 是 将 Web 使 用 记录 
转换 并 导入 传统 的 关系 表 , 青 使 用 数据 挖掘 算法 对 关系 表 数 据 进行 常规 挖掘 ; 其 二 是 将 
Web 使 用 记录 直接 预 处 理 再 进行 挖掘 。Web 使 用 挖掘 的 一 个 有 趣 问 题 是 在 多 个 用 户 使 用 
同一 台 代 理 服 务 器 环境 下 如 何 标 识 某 个 用 户 ,如何 识 别 属于 该 用 户 的 会 话 和 使 用 记录 ,这 个 
问题 看 起 来 不 大 ,但 却 在 很 大 程度 上 影响 着 挖掘 质量 。 通 常 经 典 的 数据 挖掘 算法 都 可 以 直 
接 用 于 Web 使 用 挖掘 。 但 是 ,为 了 提高 挖掘 质量 ,可 采用 改进 算法 ,如 复合 关联 规则 算法 、 
改进 的 序列 发 现 算法 等 。 

Web 使 用 挖掘 的 应 用 主要 体现 在 : 

。 个 性 挖掘 

针对 单个 用 户 的 使 用 记录 对 该 用 户 进行 建 模 , 结 合用 户 基本 信息 分 析 其 使 用 习惯 \ 个 人 
喜好 ,目的 是 在 电子 商务 环境 下 为 该 用 户 提供 与 众 不 同 的 个 性 化 服务 。 

。 系统 改进 

Web 服务 (数据 库 、 网 络 等 ) 的 性 能 和 其 他 服务 质量 是 衡量 用 户 满 意 度 的 关键 指标 ， 
Web 使 用 挖掘 可 以 通过 用 户 的 拥塞 记录 发 现 站 点 的 性 能 瓶颈 , 提示 站 点 管理 者 改进 Web 
缓存 策略 网络 传输 策略 .流量 负载 均衡 机 制 和 数据 分 布 策略 等 。 此 外 ,还 可 以 通过 分 析 网 
络 的 非法 入 侵 数据 发 现 系 统 弱 点 ,提高 网 站 安全 性 ,这 在 电子 商务 环境 下 尤为 重要 。 

。 站 点 修改 

站 点 的 结构 和 内 容 是 吸引 用 户 的 关键 。Web 使 用 挖掘 通过 挖掘 用 户 的 行为 记录 和 反 
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馈 信息 为 站 点 设计 者 提供 改进 依据 ,例如 页 面 链 接 如 何 组 织 、 哪 些 页 面 能 够 直接 访问 等 。 

。 商业 智能 

用 户 怎 样 使 用 Web 站 点 的 信息 无 疑 是 电子 商务 销售 商 关 心 的 重点 ,用 户 一 次 访问 的 周 
期 可 分 为 被 吸引 、 驻 留 、 购 买 和 离开 四 个 阶段 。Web 使 用 挖掘 可 以 通过 分 析 用 户 点 击 流 等 
Web 日 志 挖 气 用 户 行为 的 动机 ,帮助 销售 商 制定 合理 的 销售 策略 。 

。 Web 特征 描述 

通过 用 户 对 站 点 的 访问 情况 统计 各 个 用 户 的 Web 交互 情况 ,描述 用 户 的 访问 特征 。 

目前 ,Web 挖掘 存在 的 不 足 主要 体现 在 : 第 一 , Web Pg EIE SR. Web 结构 挖掘 和 Web 
使 用 挖掘 相互 独立 ,没有 互相 利用 有 机 结合 。Web 内 容 挖 掘 算法 没有 充分 利用 Web 文档 
中 的 结构 信息 和 超 链接 信息 ; 第 二 ,Web 内 容 挖掘 几乎 没有 利用 语义 信息 。 目 前 的 Web 内 
容 挖掘 大 都 是 基于 信息 提取 ,而 没有 在 获取 Web 文档 的 语义 信息 基础 上 建立 挖掘 的 理论 和 
算法 ,这 使 得 挖掘 结果 的 精度 较 差 , 质 量 不 够 理想 ; 第 三 , Web 挖掘 算法 尚 不 能 有 效 处 理 海 
量 数据 。 这 也 是 传统 数据 挖掘 面临 的 难题 之 一 。 

基于 Web 的 数据 挖掘 和 传统 的 基于 数据 仓库 的 数据 挖掘 有 着 不 同 的 含义 。 根 据 
W. J. Frawle 和 G. P. Shapir 等 人 的 定义 ,一 般 的 数据 挖掘 指 从 大 型 数据 仓库 的 数据 中 
提取 人 们 感 兴趣 的 知识 ,而 这 些 知识 是 隐 含 的 ,事先 未 知 的 、 潜 在 的 有 用 信息 , 它 侧重 于 从 已 
有 的 信息 中 提取 规律 性 的 知识 。 而 Web 挖掘 的 研究 对 象 是 以 半 结 构 化 和 非 结 构 化 的 文档 
为 中 心 的 Web, 这 些 数据 没有 统一 的 模式 ,数据 的 内 容 和 表示 互相 交织 ,内 容 基 本 上 没有 请 
义 信 息 , 仅 仅 依靠 HTML 语法 对 数据 进行 结构 上 的 描述 。 为 了 对 这 种 半 结 构 化 数据 进行 
分 析 和 处 理 ,Web 挖掘 必须 和 其 他 研究 手段 结合 起 来 。 由 于 涉及 到 很 多 的 知识 领域 , Web 
挖掘 现在 是 多 个 研究 方向 的 交汇 点 ,包括 信息 获取 .人 工 智 能 、 机 器 学 习 、 模 式 识别 、 统 计 学 
和 自然 语言 处 理 等 。 


9.1.2 主要 技术 


随 着 社会 的 日 益 信 息 化 ,人 们 越 来 越 强烈 地 希望 运用 自然 语言 同 计算 机 交流 ,建立 一 种 
人 与 机 器 之 间 密 切 而 友好 的 关系 ,使 之 能 进行 高 级 的 信息 传递 与 认 知 活动 。 自 然 语言 理解 
是 计算 机 科学 中 的 一 个 引人入胜 和 富有 挑战 性 的 课题 。 从 计算 机 科学 特别 是 从 人 工 智能 的 
观点 看 ,自然 语言 理解 的 任务 是 建立 一 种 计算 机 模型 , 它 能 够 给 出 像 人 那样 理解 、 分 析 并 回 
答 自 然 语 言 ( 即 人 们 上 日常 使 用 的 各 种 通俗 语言 ) 的 结果 。 自 然 语言 处 理 就 是 研究 如 何 能 让 计 
算 机 理解 并 生成 人 们 日 常 所 使 用 的 语言 (如 汉语 、 英 语 等 ), 让 计算 机 懂得 自然 语言 的 含义 ， 
并 对 人 给 计算 机 提出 的 问题 ,通过 对 话 的 方式 ,用 自然 语言 进行 回答 。 自 然 语言 理解 系统 可 
以 用 作 专 家 系统 、 知 识 工 程 、 情 报 检 索 、 办 公 自 动 化 的 自然 语言 人 机 接口 ,具有 重要 的 实用 
价值 。 

1. 发 展 与 演变 

由 于 对 自然 语言 理解 的 需求 ,因此 对 自然 语言 处 理 的 研究 在 电子 计算 机 问世 之 初 就 开 
始 了 。20 世纪 40 年 代 末 期 曾 有 学 者 提出 用 计算 机 进行 自然 语言 翻译 的 构想 ,并 于 20 世纪 
50 年 代 初 开展 了 机 器 翻译 试验 。 第 一 代 翻 译 系统 以 词汇 转换 为 主 , 很 少 进行 句法 分 析 , 还 
不 能 称 作 “理解 ”。 


到 了 20 世纪 60 年 代 , 乔 姆 斯 基 的 转换 生成 语法 得 到 广泛 的 认可 ,对 句子 的 分 析 是 利用 
短语 结构 规则 自 顶 向 下 或 自 底 向 上 地 生成 句法 树 ,从 而 得 到 句子 的 句法 结构 。 转 换 生 成 文 
法 把 机 器 翻译 带 入 句法 分 析 的 时 代 , 也 使 得 对 自然 语言 的 处 理 上 升 到 新 的 水 平 。 由 于 认识 
到 生成 语法 缺少 表示 语义 知识 的 手段 ,不 利于 自然 语言 理解 ,在 20 世纪 70 年 代 随 着 认 知 科 
学 的 兴盛 ,学 者 们 纷纷 从 语义 的 角度 出 发 ,提出 语义 理论 ,在 自然 语言 处 理 中 大 量 引进 语义 、 
语 境 以 及 语 用 的 分 析 技 术 。20 世纪 60 年 代 末 期 ,M. R. Qulllian 提出 了 语义 网 络 理论 ,用 
于 描述 概念 之 间 的 关系 ; C. J. Fillmore 提出 了 格 语法 ,用 语义 格 和 深层 格 框 描述 句 义 ; 1973 
年 ,Roger Schank 提出 了 概念 从 属 理论 (Conceptual Dependency. CD 理论 ) ,描述 句 义 和 语 
义 ; 1975 年 ,Marvin Minsky 提出 了 框架 理论 ,用 于 描述 事物 或 概念 状态 。 这 些 理论 经 过 各 
自 的 发 展 ,逐渐 开始 趋 于 相互 融合 。 

到 20 世纪 80 年 代 一 批 新 的 语法 理论 脱颖而出 ,具有 代表 性 的 包括 词汇 功能 语法 
(Lexical Function Grammar. LFG)、 功 能 合 一 语法 (Functional Unification Grammar, 
FUG) 广义 短语 结构 语法 (Generalized Phrase Structure Grammar,GPSG) 等 。 虽然 ,这 些 
基于 规则 的 分 析 方 法 基本 上 解决 了 单个 句子 的 分 析 , 但 是 还 很 难 覆 盖 全 面 的 语言 现象 ,特别 
是 对 于 整个 段落 或 篇 章 的 理解 还 无 从 下 手 。 

20 世纪 90 年 代 , 在 自然 语言 处 理 领域 中 ,出 现 了 基于 语料库 的 方法 ,对 大 规模 真实 文 
本 进行 处 理 。 这 些 方 法 包括 统计 和 基于 实例 的 方法 等 。 通 过 词法 、 句 法 .语义 等 多 层次 的 加 
工 从 未 经 处 理 的 生 语 料 中 获取 各 种 语言 知识 ,情景 知识 和 语 境 知 识 等 ,然后 利用 这 些 知识 对 
语言 进行 分 析 理 解 。 因 此 基于 知识 的 方法 成 为 主流 。 从 整个 自然 语言 理解 的 发 展 历程 来 
看 ,自然 语言 理解 经 历 了 从 单纯 依靠 语法 规则 到 语义 分 析 与 句法 分 析 相 结合 ,最 后 利用 知识 
来 消除 歧义 的 过 程 。 

语料库 是 大 量 文 本 的 集合 ,计算 机 出 现 后 , 语 料 可 以 被 方便 地 存储 起 来 ,利用 计算 机 查 
找 也 很 容易 。 随 着 电子 出 版 物 的 出 现 , 语 料 采集 也 不 再 困难 。 最 早 于 20 世纪 60 年 代 编制 
的 Brown 和 LOB 两 个 计算 机 语料库 ,分 别 具 有 100 万 词 次 的 规模 。 进 入 20 世纪 90 年 代 语 料 
库 达 几 十 个 之 多 , 像 DCI, ECI, ICAME, BNC, LDC 和 CLR 等 ,其 规模 最 高 达到 10* 数量 级 。 

对 语料库 的 研究 分 为 3 个 方面 : 工具 软件 的 开发 .语料库 的 标注 和 基于 语料库 的 语言 
分 析 方 法 。 采 集 后 未 经 处 理 的 生 语 料 不 能 直接 提供 有 关 语 言 的 各 种 知识 ,只 有 通过 词法 、 句 
法 和 语义 等 多 层次 的 加 工 才 能 使 知识 获取 成 为 可 能 。 加 工 方法 就 是 在 语 料 中 标注 各 种 记 
号 ,标注 的 内 容 包 括 每 个 词 的 词性 \ 语 义 项 短语 结构 、 句 型 和 句 间 关系 等 。 随 着 标注 程度 的 
加 深 语料库 逐渐 熟化 ,成 为 一 个 分 布 的 、 统 计 意 义 上 的 知识 源 。 利 用 这 个 知识 源 可 以 进行 许 
多 语言 分 析 工作 ,例如 根据 从 已 标注 语 料 中 总 结 出 的 频 度 规律 可 以 给 新 文本 逐 词 标注 词性 、 
划分 句子 成 分 等 。 

语料库 提供 的 知识 是 用 统计 方法 表示 的 ,而 不 是 确定 性 的 , 随 着 规模 的 扩大 , 旨 在 覆盖 
全 面 的 语言 现象 。 但 是 对 于 语言 中 基本 的 确定 性 的 规则 仍然 用 统计 强度 的 大 小 去 判断 ,这 
与 人 们 的 常识 相 违 背 。 这 种 “经 验 主义 ”的 不 足 要 靠 理 性 的 方法 来 弥补 。 两 类 方法 的 融合 也 
正 是 当前 自然 语言 处 理 的 发 展 趋势 。 

自然 语言 理解 的 发 展 可 以 分 为 第 一 代 系 统 和 第 二 代 系 统 两 个 阶段 。 第 一 代 系统 建立 在 
对 词类 和 词 序 分 析 的 基础 之 上 ,分 析 中 经 常 使 用 统计 方法 ; 第 二 代 系 统 则 开始 引入 语义 其 
至 语 用 和 请 境 的 因素 ,几乎 完全 抛 开 了 统计 方法 。 
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原理 及 应 用 (第 二 版 


第 一 代 自 然 语言 理解 系统 又 可 分 为 四 种 类 型 。 

1) 特殊 格式 系统 

早期 的 自然 语言 理解 系统 大 多 数 是 特殊 格式 系统 ,根据 人 机 对 话 内 容 的 特点 ,采用 特殊 
的 格式 来 进行 人 机 对 话 。1963 年 , 林 德 赛 (R. Lindsay) 在 美国 卡 内 基 学 院 用 IPL-V 表 处 理 
语言 设计 的 SAD-SAM 系统 ,就 采用 了 特殊 格式 进行 关于 亲属 关系 方面 的 人 机 对 话 , 系 统 
内 建立 了 一 个 关于 亲属 关系 的 数据 库 , 可 接收 关于 亲属 关系 方面 的 问题 的 英语 句子 提问 ,并 
用 英语 作出 回答 ; 1968 年 , 波 布 洛 (D. Bobrow) 在 美国 麻 省 理工 学 院 设计 了 STUDENT 系 
统 , 这 个 系统 把 高 中 代数 应 用 题 中 的 英语 句子 归纳 为 一 些 基 本 模式 ,由 计算 机 来 理解 这 些 应 
用 题 中 的 英语 句子 , 列 出 方程 求解 ,并 给 出 答案 。20 世纪 60 年 代 初 期 ,格林 (B. Green) 在 美 
国 林肯 实验 室 建立 了 BASEBALL 系统 ,也 使 用 IPL-V 表 处 理 语 言 ,系统 的 数据 库 中 存储 了 
关于 美国 1959 年 联邦 棒球 赛 得 分 记录 的 数据 ,可 回答 有 关 棒 球赛 的 一 些 问题 。 该 系统 的 句 
法 分 析 能 力 较 差 ,输入 句子 十 分 简单 .没有 连接 词 ,也 没有 比较 级 形式 的 形容 词 和 副词 ,主要 
靠 一 部 机 器 词典 进行 单词 的 识别 ,使 用 了 14 个 词类 范畴 ,所 有 的 问题 都 采用 一 种 特殊 的 规 
范 表达 式 回答 。 

2) 以 文本 为 基础 的 系统 

特殊 格式 系统 中 格式 的 限制 , 带 来 了 诸多 不 便 。 因 为 就 一 个 专门 领域 而 言 , 最 方便 的 还 是 
使 用 不 受 特殊 格式 限制 的 系统 进行 人 机 对 话 , 因 此 后 来 出 现 了 以 文本 为 基础 的 系统 ,1966 年 
西蒙 (R. F. Simmons) ,布尔 格 (J. F. Burger) HIJE fit CR. E. Long) 设 计 的 PROTOSYNTHEX-I 系 
统 , 就 是 以 文本 信息 的 存储 和 检索 方式 工作 的 。 

3) 有 限 逻 辑 系统 

有 限 逻 辑 系统 进一步 改进 了 以 文本 为 基础 的 系统 。 在 这 种 系统 中 ,自然 语言 的 句子 以 
某 种 更 加 形式 化 的 记号 来 蔡 代 , 这 些 记号 自 成 一 个 有 限 逻 辑 系统 ,可 以 进行 某 些 推理 。1968 
年 , 拉 菲 尔 (B. Raphael) 在 美国 麻 省 理工 学 院 用 LISP 语言 建立 了 SIR 系统 ,针对 英语 提出 
了 24 个 匹配 模式 ,把 输入 的 英语 句子 与 这 些 模 式 相 匹配 ,从 而 识别 输入 句子 的 结构 ,在 从 存 
储 知 识 的 数据 库 到 回答 问题 的 过 程 中 ,可 以 处 理 人 们 对 话 中 常用 的 一 些 概念 ,如 集合 的 包含 
关系 、 空 间 关 系 等 等 ,并 可 进行 简单 的 逻辑 推理 ,并 且 机 器 能 在 对 话 中 进行 学 习 , 记 住 已 学 过 
的 知识 ,从 事 一 些 初步 的 智能 活动 。1965 年 ,斯 莱 格 勒 (J. R. Slagle) 建 立 了 DEDUCOM 
系统 ,可 在 情报 检索 中 进行 演绎 推理 。1966 年 , 托 普 逊 (F. B. Thompson) 建 立 了 DEACON 
系统 ,通过 英语 管理 一 个 虚构 的 军用 数据 库 ,设计 中 使 用 了 环 结构 和 近似 英语 的 概念 进行 推 
理 。1968 年 , 凯 罗 格 (C. Kellog) Æ IBM360/67 计算 机 上 ,建立 了 CONVERSE 系统 ,该 系 
统 能 根据 关于 美国 120 个 城市 的 1000 个 实际 的 文件 来 进行 推理 。 

4) 一 般 演 绎 系统 

一 般 演绎 系统 使 用 某 些 标准 数学 符号 (如 谓词 演算 符号 ) 表 达 信息 。 逮 辑 学 家 们 在 定理 
证 明 工 作 上 取得 的 全 部 成 就 ,就 可 以 用 来 作为 建立 有 效 的 演绎 系统 的 依据 ,从 而 能 够 把 任何 
一 个 问题 用 定理 证 明 的 方式 表达 出 来 ,并 实际 地 演绎 出 所 需要 的 信息 ,用 自然 语言 做 出 回 
答 。 一 般 演绎 系统 可 以 表达 那些 在 有 限 逻 辑 系统 中 不 容易 表达 出 来 的 复杂 信息 ,进一步 提 
高 了 自然 语言 理解 系统 的 能 力 。1968 至 1969 年 ,格林 和 拉 菲 尔 建立 的 QA2 和 QA3 系统 ， 
采用 谓词 演算 的 方式 和 格式 化 的 数据 进行 演绎 推理 ,解答 问题 ,并 用 英语 作出 回答 ,这 是 一 
般 演 绎 系统 的 典型 代表 。 


1970 年 以 来 ,出 现 了 第 二 代 自 然 语言 理解 系统 ,这 些 系 统 绝 大 多 数 是 程序 演绎 系统 ,大 
量 地 进行 语义 、 语 境 和 语 用 的 分 析 。 其 中 比较 有 名 的 是 LUNAR、SHRDLU、MARGIE、 
SAM,PAM 等 系统 。 

LUNAR 系统 是 伍 效 (W. Woods) F 1972 年 设计 的 一 个 自然 语言 情报 检索 系统 。 这 
个 系统 采用 形式 提问 语言 (formal query language) 表 示 所 提问 的 语义 ,从 而 对 提问 的 句子 作 
出 语义 解释 ,最 后 把 形式 提问 语言 用 于 数据 库 , 产 生 问 题 的 回答 。 

SHRDLU 系统 是 维 诺 格拉 德 (T， Winograd) F 1972 年 在 美国 麻 省 理工 学 院 建立 的 一 
个 用 自然 语言 指挥 机 器 人 动作 的 系统 。 该 系统 把 句法 分 析 、` 语 义 分 析 和 逻辑 推理 结合 起 来 ， 
大 大 地 增强 了 系统 在 语言 分 析 方 面 的 功能 。 该 系统 对 话 的 对 象 是 一 个 具有 简单 的 “ 手 ” 和 
“ 眼 ” 的 玩具 机 器 人 , 它 可 以 操作 放 在 桌子 上 的 不 同 颜色 .尺寸 和 形状 的 玩具 积木 ,如 立方 体 、 
楼 锥 体 和 盒子 等 ,机 器 人 能 够 根据 操作 人 员 的 命令 把 这 些 积木 捡 起 来 ,移动 它们 去 搭 成 新 的 
积木 结构 ,在 人 机 对 话 过 程 中 ,操作 人 员 能 获得 发 送 给 机 器 人 的 各 种 视觉 反馈 ,实时 地 观察 
机 器 人 理解 语言 和 执行 命令 的 情况 。 在 电视 屏幕 上 还 可 以 显示 出 这 个 机 器 人 的 模拟 形象 以 
及 它 同 一 个 真人 在 电 传 机 上 自由 地 用 英语 对 话 的 生动 情景 。 

MARGIE 系统 是 杉 克 (R. Schank) 于 1975 年 在 美国 斯 坦 福 大 学 人 工 智 能 实验 室 研制 
的 。 该 系统 的 目的 在 于 提供 一 个 自然 语言 理解 的 直观 模型 。 系 统 首先 把 英语 句子 转换 为 概 
念 依存 表达 式 , 然 后 根据 系统 中 有 关 信 息 进行 推理 ,从 概念 依存 表达 式 中 推演 出 大 量 的 事 
实 。 由 于 人 们 在 理解 句子 时 ,总 要 牵涉 到 比 句子 的 外 部 表达 多 得 多 的 内 容 , 因 此 ,该 系统 的 
推理 有 16 种 类 型 ,如 原因 、 效 应 ,说 明和 功能 等 。 最 后 ,把 推理 的 结果 转换 成 英语 输出 。 

SAM 系统 是 阿 贝尔 森 (R. Abelson) 于 1975 年 在 美国 耶鲁 大 学 建立 的 。 这 个 系统 采用 
脚本 (Sceript) 理 解 自然 语言 编写 的 故事 。 所 谓 脚本 ,就 是 用 来 描述 人 们 活动 (如 上 饭馆 、 看 
病 ) 的 一 种 标准 化 的 事件 系列 。 

PAM 系统 是 威 林 斯 基 (R. Wilensky) 于 1978 年 在 美国 耶鲁 大 学 建立 的 另 一 个 理解 故 
事 的 系统 。PAM 系统 能 解释 故事 情节 ,回答 问题 ,进行 推论 ,做 出 摘要 。 它 除了 “脚本 ”中 
的 事件 序列 之 外 ,还 提出 了 计划 (Plan) 作 为 理解 故事 的 基础 。 所 谓 计划 就 是 故事 中 的 人 物 
为 实现 其 目的 所 要 采取 的 手段 。 如 果 要 通过 “计划 ”来 理解 故事 ,就 要 找 出 人 物 的 目的 以 及 
为 完成 这 个 目的 所 采取 的 行动 。 系 统 中 设 有 一 个 “计划 库 ”(Plan Box) ,其 中 存储 着 有 关 各 
种 目的 的 信息 以 及 各 种 手段 的 信息 。 这 样 , 在 理解 故事 时 ,只 要 找到 故事 中 有 关 情 节 与 计划 
库 中 存储 的 信息 相 匹 配 的 部 分 ,就 可 以 理解 到 这 个 故事 的 目的 是 什么 。 当 把 一 个 一 个 的 故 
事情 节 与 脚本 匹配 出 现 障 碍 时 ,由 于 “计划 库 ” 中 可 提供 关于 一 般 目的 的 信息 ,就 不 致 造成 故 
事理 解 的 失败 。 例 如 ,营救 一 个 被 暴徒 抢 走 的 人 ,在 “营救 ”这 个 总 目的 下 列 出 若干 个 子 目 
的 ,包括 到 达 暴 徒 的 巢穴 以 及 杀 死 暴徒 的 各 种 方法 ,就 可 以 预期 下 一 步 的 行为 。 同 时 能 根据 
主题 推论 目的 。 例 如 ,输入 故事 :“ 约 翰 爱 玛丽 ; 玛丽 被 暴徒 抢 走 了 .”PAM 系统 即 可 预期 
约翰 要 采取 行动 营救 玛丽 。 故 事 中 虽然 没有 这 样 的 内 容 , 但 是 ,根据 计划 库 中 的 “爱情 主 
题 ”", 可 以 推出 “约翰 要 采取 行动 营救 玛丽 ”的 情节 。 

上 述 系 统 都 是 书面 的 自然 语言 理解 系统 ,输入 和 输出 都 是 用 书面 文字 。 口 头 的 自然 语 
言 理解 系统 ,还 牵涉 到 语音 识别 和 语音 合成 等 复杂 技术 ,显然 是 更 加 困难 的 课题 ,口头 自然 
语言 理解 系统 的 研究 近年 来 亦 有 进展 。 
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2. 现代 汉语 的 研究 现状 

汉语 研究 基本 上 都 是 从 概率 统计 向 着 汉语 的 语义 研究 方向 发 展 。 语 义 是 汉语 理解 的 一 
条 蹊 径 ,以 词义 为 基础 ,与 句法 、 规 则 相 结合 ,以 句子 为 突破 单位 。 国 内 对 汉语 的 信息 处 理 研 
究 项 目 主要 有 以 下 三 个 流派 。 

第 一 是 以 传统 计算 语言 学 为 基本 理论 ,从 词素 分 析 和 手 , 进 而 研究 词 -短语 (词组 )- 语 段 - 
句子 。 概 括 地 说 ,传统 计算 语言 学 的 种 种 理论 和 方法 ,都 以 语 料 统 计 为 基础 ,因此 还 需要 结 
合 语言 规则 ,例如 借鉴 了 西方 计算 语言 学 的 众多 理论 和 方法 如 短语 结构 语法 .扩充 转移 网 
络 、 从 属 关系 语法 和 配 价 语法 等 。 

第 二 是 黄 曾 阳 提 出 的 概念 层次 网 络 理论 (Hierarchical Network of Concepts, HNC 理 
论 )。HNC 理论 认为 ,自然 语言 理解 的 关键 是 描述 人 的 语言 感知 过 程 的 适当 模式 ,试图 建 
立 一 种 模拟 大 脑 语言 认 知 过 程 的 自然 语言 的 计算 机 理解 处 理 模式 。HNC 把 自然 语言 要 表 
述 的 知识 划分 为 概念 、 语 言 和 常识 三 个 独立 的 层面 ,并 为 此 建立 不 同 的 知识 库 , 通 过 建立 局 
部 和 全 局 两 类 联想 脉络 来 帮助 计算 机 理解 自然 语言 。 

第 三 是 基于 内 涵 模 型 的 请 义 分 析 , 该 理论 是 由 陆 汝 占 教授 提出 的 。 它 将 汉 请 表达 式 抽 
象 成 数学 表达 式 ,恰当 地 表示 内 涵 和 外 延 , 然 后 把 这 些 语义 表示 在 计算 机 内 进行 处 理 , 即 把 
汉语 表达 式 与 计算 机 数据 结构 之 间 直 线 联结 ,改变 为 汉语 表达 式 -抽象 数学 表示 -数据 结构 
三 者 的 间接 联结 。 具 体 设 想 是 : 先 构造 一 种 句子 的 逻辑 式 之 间 的 中 介 形 式 “ 函 子 ” 
(Functor) ,以 表示 谓语 动词 连同 支配 成 分 一 起 构成 的 语句 核心 ,表示 句 义 的 基本 要 素 。 函 
子 加 上 时 态 、. 模 态 算 子 就 可 以 表示 语 态 ,构成 句子 的 基本 逻辑 含义 。 

以 上 对 汉语 的 研究 面临 着 不 同 的 问题 。 第 一 种 流派 较 好 地 处 理 了 汉语 的 表层 语法 结 
构 , 但 是 面临 着 如 何 集成 和 如 何 解 决 词义 .句子 的 问题 ; 第 三 种 流派 ,理论 设计 还 较 粗略 , 趋 
向 于 把 自然 语言 的 表示 数学 化 ,虽然 用 这 一 理论 已 经 解决 了 一 些 实用 问题 ,但 是 对 自然 语言 
本 身 的 理解 做 得 不 够 ,要 证 明 它 可 以 适用 于 整个 现代 汉语 ,还 需要 进一步 推 项、 实验 和 细 化 。 

对 汉语 的 处 理 不 仅 依赖 于 语言 的 表层 结构 表述 ,更 重要 的 是 语言 深层 结构 的 表述 。 第 
二 种 流派 HNC 提出 了 深层 次 的 语言 结构 的 表示 ,语言 抽象 表示 的 概念 化 和 层次 化 都 适合 
汉语 的 研究 ,但 其 实现 比较 庞大 复杂 ,需要 建立 庞大 的 知识 库 , 从 总 体 上 检验 和 完善 其 理论 
和 技术 设计 的 可 行 性 ,因此 该 理论 需要 长 期 的 实践 验证 。 此 外 , 鲁 川 提出 了 汉语 的 意 合 网 
络 , 给 出 了 语义 的 组 合 知识 ,但 是 对 于 知识 的 获取 涉及 甚 少 。 董 振东 提出 的 知 网 (How- 
Net) 建 立 了 一 个 以 揭示 概念 与 概念 之 间 以 及 概念 所 具有 的 属性 之 间 的 关系 为 基本 内 容 的 
常识 知识 库 ,但 是 对 概念 的 描述 停留 在 词汇 层面 上 ,没有 足够 的 知识 适合 于 计算 机 推理 。 俞 
士 汉 等 初步 建成 了 “现代 汉语 语法 电子 词典 ,提出 了 现代 汉语 词语 分 类 体系 ,但 只 是 服务 于 
语言 信息 处 理 。 

3. 相关 理论 

1) 国外 的 研究 现状 

国外 关于 自然 语言 理解 方面 的 研究 起 步 较 早 ,一些 卓 有 成 就 的 请 言 学 家 、 逻 辑 学 家 和 心 
理学 家 都 在 自然 语言 理解 的 语法 、 句 法 及 语义 分 析 方面 提出 了 一 些 较为 系统 的 理论 和 方法 。 
下 面 介绍 一 些 比较 有 影响 的 理论 。 

(1) 形式 语言 

1957 年 美国 Chomsky 提出 了 形式 语言 理论 。 在 该 理论 中 ,语言 被 看 成 是 一 个 抽象 的 


符号 系统 ,Chomsky 把 它 定义 为 : 按 一 定 的 规律 构成 的 句子 或 符号 串 的 有 限 的 或 无 限 的 集 
合 , 记 为 L。 一 种 语言 的 文法 G 是 一 种 格式 ,用 来 说 明 什么 句子 在 该 语言 中 是 合法 的 ,并 指 
明 把 词组 合成 短语 和 子 句 的 规则 。 

G 定义 为 : G= (T, N, S, P) 

其 中 ,TT 是 终结 符 的 集合 ,终结 符 是 指 被 定义 的 那个 语言 的 词 ( 或 符号 ); N 是 非 终 结 符 
的 集合 ,这 些 符号 不 能 出 现在 最 终生 成 的 句子 中 ,是 专门 用 来 描述 语法 的 ; S 是 起 始 符 , 它 
是 集合 N 中 的 一 个 成 员 ; P 是 一 个 产生 式 规则 集 。 

以 英语 中 的 一 个 很 小 的 子 集 为 例 , 它 具 有 如 下 的 文法 : 

G—-(QO,N.S.P) 

T= (the. dog. cat, runs,**} 

N={S, NP, VP} 

S={S} 

产生 式 规 则 集 已 的 规则 : 

S—NP--VP; N—dog; NP=the+N; N=cat; VP—runs 

根据 这 些 简单 的 文法 ,能 生成 以 下 两 个 英语 句子 : 

(D The cat runs. The dog runs. 

Chomsky 希望 ,如 果 能 找到 一 种 描述 英语 的 形式 文法 ,人 们 就 可 以 根据 它 利用 计算 机 
“理解 ”英语 。 但 是 到 目前 为 止 ,这 个 目标 仍然 没有 实现 。 从 自然 语言 处 理 的 观点 来 看 ,形式 
地 定义 一 种 语言 的 意义 在 于 : 如 果 系 统 要 处 理 的 句子 结构 是 已 知 的 ,那么 就 比较 容易 写 出 
一 种 分 析 算 法 对 输入 语句 进行 句法 分 析 。 

(2) 转移 生成 语法 

1957 年 Chomsky 曾 提出 转换 生成 语法 (Transformational Generative Grammar) ,将 句 
子 的 结构 分 为 深层 结构 和 表层 结构 两 个 层次 ,并 根据 形式 文法 中 所 使 用 的 规则 集 不 同 将 语 
法 分 为 四 种 类 型 : 无 约束 短语 结构 (0 型 语法 )、 上 下 文 有 关 语 法 (1 型 语法 )、 上 下 文 无 关 请 
法 (2 型 语法 ) 和 正则 语法 (3 型 语法 )。 一 些 表达 相同 意义 的 句子 尽管 表层 结构 不 同 , 但 其 深 
层 结 构 却 是 相同 的 。 例 如 : 


(D The car will hit that tree soon. 


© That tree will be hit by the car soon. 

转换 生成 语法 的 原理 是 通过 上 下 文 无 关 语法 生成 句子 的 深层 结构 (形式 请 言 ) ,然后 应 
用 转换 规则 再 将 深层 结构 转换 为 表层 结构 。 如 果 要 进行 句子 分 析 , 则 首先 要 逆向 应 用 转换 
规则 将 表层 结构 转换 为 深层 结构 ,之 后 再 应 用 上 下 文 无 关 语法 进行 分 析 。 

Chomsky 在 语法 中 完全 抛 开 了 语义 、. 语 用 和 语 境 方面 的 知识 ,只 局 限于 一 个 形式 化 的 
机 制 上 ,因此 很 难 完全 确切 地 描述 自然 语言 。 

(3) 扩展 转移 网 络 

1970 年 美国 的 Woods 根据 Chomsky 创建 的 转换 生成 语法 ,设计 了 扩展 转移 网 络 
(Augmented Transition Network, ATN). 

转移 网 络 是 自然 语言 中 常用 的 自动 机 ,每 个 转移 网 络 由 一 个 状态 集 和 一 个 标号 集 组 成 ， 
它 的 构成 可 以 表示 为 : 

状态 X 标 号 = 状态 
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其 含义 是 给 定 当 前 状态 和 当前 标号 后 ,可 以 求 得 下 一 步 状 态 . 在 识别 语言 时 ,状态 是 指 
当前 的 句子 分 析 到 了 哪 一 步 ,标号 是 指 当前 面临 的 语法 成 分 是 什么 。 

设 有 Q0.Q1,Q2 和 Q3 四 个 状态 。Q0 表示 语句 分 析 开 始 ; Q 表示 主语 分 析 完 毕 ; Q2 
表示 谓语 分 析 完 毕 ; Q3 表示 全 句 分 析 完 毕 。 

又 有 NP 和 VP 两 个 标号 。 如 图 9. 2 所 示 是 一 个 简单 的 转移 网 络 ,该 网 络 可 用 来 分 析 
许多 简单 语句 ,如 : 

(D Mary finished the job. 

© Tom plays basketball. 


(99) — (Q1) — (92) — (93) 


9.2 一 个 简单 的 转移 网 络 


自然 语言 中 的 句子 可 能 是 非常 复杂 的 ,如 果 考 虑 到 句子 结构 的 各 种 可 能 性 , 则 转移 网 络 
也 将 变 得 非常 复杂 。 为 了 降低 复杂 性 ,人 们 研究 如 何 把 转移 网 络 模块 化 ,并 尽 可 能 分 成 层次 
结构 ,为 此 提出 了 递归 转移 网 络 。 在 递归 转移 网 络 中 ,标号 可 以 是 简单 的 词类 ,也 可 以 是 另 
一 个 递归 转移 网 络 的 名 字 。 

但 是 递归 转移 网 络 仍 存在 其 严重 的 不 足 , 主 要 问题 是 在 分 析 完 一 个 句子 之 后 , 它 只 能 给 
出 关于 该 句子 是 否 符合 语法 的 信息 ,而 不 能 回答 有 关 该 句子 的 语法 结构 这 类 问题 。 原 因 在 
于 分 析 时 未 能 把 所 得 到 的 信息 记录 下 来 。 为 此 ,Woods 把 递归 转移 网 络 加 以 扩充 ,成 为 
ATN. ATN 用 一 组 寄存 器 存放 语法 分 析 信 息 。 它 每 走 一 步 都 要 测试 一 下 当前 情况 并 根据 
测试 结果 决定 做 什么 动作 。 最 后 把 各 寄存 器 中 的 信息 综合 起 来 ,得 到 所 分 析 句 子 的 语法 


结构 。 

ATN 的 弱点 在 于 它 对 句法 的 过 分 依赖 ,限制 了 它 对 语言 的 处 理 能 力 , 在 某 些 情况 下 效 
率 很 低 。 

(4) 格 语法 


20 世纪 60 年 代 末 Fillmore 提出 了 一 种 新 的 理论 一 一 格 语法 (Case Grammar)。 格 语 
法 将 自然 语言 理解 中 的 语法 和 语义 分 析 结 合 起 来 , 它 的 语法 规则 用 于 描述 语法 规律 而 不 是 
语义 规律 ,但 规律 所 产生 的 最 终结 构 不 是 严格 表示 语法 结构 而 是 描述 语义 关系 。 
按照 Fillmore 的 观点 ,一 个 句子 可 以 由 情态 和 命题 两 部 分 组 成 。 如 果 用 S 表示 句子 
(Sentence) ,用 M 表示 情态 (Modality) ,用 P 表示 命题 (Proposition) , 则 可 写 为 
S=M+P 
命题 已 是 动词 与 其 相关 的 格 。 如 果 用 V 表示 动词 ,用 C ,Cs ,…',C, 表 示 各 种 格 , 则 可 
写 为 : 
P= 
而 每 一 个 格 又 可 以 表示 为 一 个 格 标 ( 记 为 K) 再 加 上 一 个 名 词 短语 。 若 用 C; 表 示 格 , 则 可 写 为 : 
C = K+NP 
K 可 以 是 介词 ,也 可 以 为 空 。 
情态 M 是 一 系列 从 整体 上 描述 句子 各 方面 的 术语 ,主要 是 指 时 态 、 体 形式、 方式 和 时 
间 等 ,可 定义 为 : 


M = Tense, Aspect. Form. Mood. Essence. Modal. Manner, Time 
其 中 

Tense; present. past.future 

Aspect; perfect. imperfect 

Form: simple. emphatic, progressive 

Mood: declarative, interrogative, imperative 

Essence: positive. negative. indeterminate 

Modal: may. can, must 

Manner: adverbial 

Time: adverbial 

(5) 概念 从 属 理论 

1973 年 美国 的 Schank 提出 了 概念 从 属 理论 (Conceptual Dependency Theory,CD 理 
W) ,这 种 理论 与 格 语法 有 相似 之 处 ,如 句子 意义 的 表达 以 行为 (Action) 为 中 心 ,并 包括 一 些 
与 其 相关 的 句子 其 他 词 的 格 。 但 两 者 之 间 也 存在 明显 的 区 别 ,在 CD 理论 中 ,句子 的 行为 不 
是 由 动词 表示 ,而 是 由 原 语 行为 集 表示 ,其 中 每 一 个 原 语 是 包含 动词 意义 的 概念 ,换言之 , 行 
为 是 由 动词 的 概念 表示 ,而 不 是 由 动词 本 身 表 示 。 

让 我 们 看 两 个 例句 : 

(D John gave the vase to Mary. 

(2) Mary received the vase from John. 

以 上 两 名 尽管 侧重 点 不 同 、 所 用 的 动词 不 同 , 但 基本 概念 是 相同 的 ,都 是 关于 所 有 权 的 
转移 。 但 在 格 语法 中 ,这 两 个 句子 的 内 部 存储 将 采用 完全 不 同 的 形式 。CD 理论 指出 物体 
所 有 权 转 移 是 原 语 行动 ATRANS。 因 此 ,上 述 第 一 句 可 表示 为 : 

EVENT1 

ACTOR: John 

ACTION: ATRANS 

OBJECT: the vase 

DIRECTION: FROM John TO: Mary 
第 二 句 可 表示 为 : 
EVENT2 

ACTOR: Mary 

ACTION: ATRANS 

OBJECT: the vase 

DIRECTION: FROM: John TO: Mary 

EVENTI 和 EVENT2 分 别 表 示 了 两 句 的 意义 ,两 者 的 差异 仅 在 于 动作 的 完成 者 。 

由 于 运用 CD 理论 理解 自然 语言 时 ,大 量 使 用 到 语义 知识 ,使 得 对 纯粹 语法 分 析 有 二 义 
性 的 句子 也 能 赋予 唯一 的 解释 。 但 另 一 方面 ,要 很 好 地 完成 分 析 工 作 又 需要 庞大 的 语义 知 
识 库 。 

(6) 境况 语义 学 

1983 年 美国 的 Barwise 和 Perry 建立 了 境况 语义 学 (Situation Semantics)。 境 况 语义 
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学 是 一 种 请 义 与 语 用 相 结合 的 语义 分 析 理 论 。 例 如 : 

Tom saw a girl with a telescope. 

我 们 既 可 以 理解 成 “汤姆 用 一 个 望远镜 看 一 个 姑娘 ”, 也 可 以 理解 成 “汤姆 看 到 一 个 拿 着 
一 个 望远镜 的 姑娘 ”。 要 能 对 这 句 话 作出 正确 的 判断 ,只 有 根据 上 下 文 信息 和 特定 的 语言 
环境 。 

境况 语义 学 的 任务 ,就 是 要 从 语言 环境 中 获取 在 语法 和 语义 分 析 中 无 法 得 到 的 信息 ,更 
好 地 完成 自然 语言 理解 。 

(7) 语料库 语言 学 

近 几 年 来 ,在 国际 上 掀起 了 语料库 语言 学 (Corpus Linguisties) 的 研究 热潮 。 语料库 语 
言 学 研究 机 器 可 读 的 自然 语言 文本 的 采集 、 存 储 、 检 索 、 统 计 、 语 法 标注 、 句 法 -语义 分 析 以 及 
具有 上 述 功 能 的 语料库 在 语言 定量 分 析 、 词 ( 字 ) 典 编撰 、 作 品 风格 分 析 、 自 然 语言 理解 和 机 
器 翻译 等 领域 的 应 用 。 

2) 国内 的 研究 现状 

概念 层次 网 络 (Hierarchical Network of Concepts, HNC) 理 论 是 关于 自然 语言 理解 的 
一 个 理论 体系 。 它 以 概念 化 .层次 化 、 网 络 化 的 语义 表达 为 基础 ,所 以 称 之 为 概念 层次 网 络 
理论 。HNC 理论 把 人 脑 认 知 结构 分 为 局 部 和 全 局 两 类 联想 脉络 ,认为 对 联想 脉络 的 表达 
是 语言 深层 ( 即 语言 的 语义 层面 ) 的 根本 问题 。 

HNC 理论 的 中 心目 标 是 建立 自然 语言 的 表述 和 处 理 模 式 , 使 计算 机 能 够 模拟 人 脑 的 
语言 感知 功能 。 该 理论 使 自然 语言 理解 获得 了 突破 性 的 进展 , 它 所 蕴涵 的 精深 丰富 的 思想 
对 人 工 智 能 .语言 学 .计算 机 科学 和 认 知 科学 等 都 具有 重要 的 理论 和 应 用 价值 ,对 中 文 信息 
处 理 和 汉语 研究 尤其 具有 实际 意义 。 

HNC 理论 完全 摆脱 了 国内 现 有 语法 学 的 束缚 ,而 从 语言 的 深层 入 手 , 以 语义 表达 为 基 
础 ,为 汉语 理解 开辟 了 一 条 新 路 。HNC 理论 提出 了 可 供 实现 的 完整 的 自然 语言 理解 的 理 
论 框架 , 它 是 一 个 面向 整个 自然 语言 理解 的 强大 而 完备 的 语义 描述 体系 ,包括 语句 处 理 、 句 
群 处 理 , 篇 章 处 理 、 短 时 记忆 向 长 时 记忆 扩展 处 理 , 文 本 自动 学 习 处 理 。HNC 理论 的 出 发 
点 就 是 运用 两 类 联想 脉络 “帮助 "计算机 理解 自然 语言 。 自 然 语言 的 词汇 是 用 来 表达 概念 
的 ,因此 ,HNC 建立 的 词汇 层面 的 局 部 联想 脉络 体现 为 一 个 概念 表达 体系 。 概 念 分 为 抽象 
概念 和 具体 概念 。HNC 理论 的 概念 表达 体系 侧重 于 抽象 概念 的 表达 。 对 具体 概念 采取 挂 
靠近 似 表达 方法 。HNC 理论 认为 应 该 从 多 元 性 表现 和 内 涵 两 个 方面 描述 概念 。 

HNC 利用 五 元 组 表达 抽象 概念 的 多 元 性 ,对 抽象 概念 的 内 涵 采 用 网 络 层 次 符号 表达 。 
其 网 络 层次 符号 包含 三 大 语义 网 络 : 基 元 概念 语义 网 络 、 基 本 概念 语义 网 络 和 逻辑 概念 语 
义 网 络 。HNC 的 五 元 组 符号 和 三 大 语义 网 络 的 层次 符号 组 合 起 来 就 可 完成 对 抽象 概念 的 
完整 表达 ,从 而 为 计算 机 理解 自然 语言 的 语义 提供 了 有 力 手段 。 

自然 语言 理解 技术 大 致 可 分 为 机 器 翻译 .语义 理解 及 人 机 会 话 几 个 方面 。 其 中 机 器 
翻译 (Machine Translation. MT) ,是 利用 计算 机 把 一 种 自然 语言 转变 成 男 一 种 自然 语言 芯 
过 程 。 智 能 搜索 引擎 在 这 一 领域 的 研究 将 使 得 用 户 可 以 使 用 母语 搜索 非 母 语 的 网 页 ,并 
以 母语 浏览 搜索 结果 。 语 义理 解 通过 将 语言 学 的 研究 成 果 和 计算 机 技术 结合 在 一 起 , 实 
现 了 对 词语 在 语义 层次 上 的 理解 。 人 机 会 话 技术 可 以 为 计算 机 提供 下 一 代 的 人 机 交互 接 
口 ,实现 从 文字 接口 .图形 接口 到 自然 语言 接口 的 革命 ,同时 在 家 用 电器 的 人 性 化 设计 方面 


有 着 广泛 的 应 用 前 景 , 其 技术 内 涵 主 要 包括 语音 识别 和 语音 合成 两 个 核心 部 分 。 

在 语义 理解 的 整个 过 程 中 ,智能 分 词 技术 是 最 初 的 一 个 环节 , 它 将 组 成 语句 的 核心 词 提 
炼 出 来 供 语义 分 析 使 用 。 在 分 词 的 过 程 中 ,如 何 恰当 地 提供 足够 的 词 供 分 析 程 序 处 理 , 并 且 
过 滤 掉 宛 余 的 信息 ,这 是 后 期 语义 分 析 的 质量 和 速度 的 重要 前 提 。 尤 里 卡 的 智能 分 词 避 免 
了 传统 分 词 技术 在 拆 分 时 产生 的 歧义 组 合 。 从 而 为 语义 理解 提供 了 和 良好 的 原始 材料 。 同 
时 ,在 分 词 过 程 中 ,知识 库 中 的 同义词 会 被 逐个 匹配 并 同时 提交 给 语义 理解 模块 使 用 ,这 样 
处 理 过 的 句子 ,不 仅 提供 了 原始 的 句 型 ,还 同时 搭载 了 语句 的 概念 部 分 。 

4. 关键 技术 

迄今 为 止 ,对 自然 语言 理解 尚 无 统一 和 权威 的 定义 。 按 照 考虑 问题 的 角度 不 同 而 有 不 
同 的 解释 。 从 微观 上 看 ,自然 语言 理解 是 指 从 自然 语言 到 机 器 (计算 机 系统 ) 内 部 之 间 的 一 
种 映射 。 从 宏观 上 看 ,自然 语言 理解 是 指 机 器 能 够 执行 人 类 所 期 望 的 某 些 语 言 功 能 。 这 些 
功能 包括 : 

(1) 回答 有 关 提 问 ; 

(2) 提取 材料 摘要 ; 

G) 不 同 词语 叙述 ， 

(4) 不 同 语言 翻译 。 

然而 ,对 自然 语言 的 理解 却 是 一 项 十 分 艰难 的 任务 。 即 使 建立 一 个 只 能 理解 只 言 片 语 
的 计算 机 系统 ,也 是 很 不 容易 的 。 这 中 间 有 大 量 的 极为 复杂 的 编码 和 解码 问题 。 一 个 能 够 
理解 自然 语言 的 计算 机 系统 就 像 一 个 人 那样 需要 上 下 文 知识 以 及 根据 这 些 知 识 和 信息 进行 
推理 的 过 程 。 自 然 语言 不 仅 有 语义 .语法 和 语音 问题 ,而 且 还 存在 模糊 性 等 问题 。 具 体 地 ， 
自然 语言 理解 的 困难 是 由 以 下 三 个 因素 引起 的 , 即 : 

(1) 目标 表示 的 复杂 性 ; 

(2) 映射 类 型 的 多 样 性 ; 

(3) 源 表达 中 各 元 素 间 交互 程度 的 差异 性 。 

近 几 年 来 ,由 于 以 下 因素 的 推动 , 即 : 

。 计算机 技术 的 飞速 发 展 ; 

。 可 用 的 语料库 数量 的 不 断 增 大 ; 

。 经 济 发 展 对 大 量 实用 处 理 系统 的 迫切 需要 ,使 语料库 语言 学 的 研究 得 到 了 迅速 的 发 展 。 

从 1990 年 以 来 历届 重要 的 国际 会 议 , 包 括 COLING、ACL 和 TMI 等 ,每 届 都 有 许多 新 
的 研究 成 果 出 现 。 而 对 汉语 语料库 语言 学 的 研究 , 近 几 年 来 也 出 了 许多 研究 成 果 , 如 自动 词 
性 标注 .自动 分 词 研究 .句法 功能 标注 .语义 信息 标注 、. 汉 语音 字 转 换 和 汉语 语音 识别 等 。 但 
总 的 来 说 ,发 展 速度 并 不 是 很 快 ,规模 也 不 太 大 。 

5. 应 用 

采用 自然 语言 理解 的 智能 信息 服务 创造 了 电子 服务 新 概念 ,其 最 大 的 特点 是 具有 中 文 
自然 语言 理解 功能 。 它 首先 对 提出 的 问题 进行 断 词 和 断 句 ,然后 根据 系统 预先 设置 的 语义 
规则 理解 整 句 话 的 意思 ,形成 相应 的 查询 条 件 , 在 现 有 数据 库 进行 快速 而 准确 查询 ,给 出 
用 户 需 要 的 答案 或 者 提示 用 户 进 一 步 输入 有 关 的 信息 。 由 于 自然 语言 理解 技术 发 展 的 阶 
段 性 ,目前 还 做 不 到 像 人 一 样 具有 足够 智能 的 、 通 用 的 理解 ,但 是 只 要 划 定 具体 的 领域 (领域 
范围 可 大 可 小 ,如 天 气 、 体 育 等 简单 信息 查询 ,也 可 以 是 交友 、 购 物 和 保健 等 宽泛 的 智能 聊天 
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或 咨询 等 ) ,性 能 先进 的 自然 语言 理解 技术 都 能 量 身 定做 出 具有 足够 实用 性 的 智能 信息 服务 
系统 ,自动 理解 客户 用 自然 语言 发 出 的 相关 领域 的 问题 ,使 网 络 交流 更 人 性 化 ,信息 查询 更 
方便 、 快 速 和 准确 ,从 而 获得 高 质量 的 服务 。 

目前 ,自然 语言 理解 的 应 用 主要 涉及 以 下 几 个 方面 。 

1) 智能 短信 服务 

短信 服务 商 可 根据 具体 应 用 领域 定制 一 系列 的 智能 短信 业务 ,如 旅游 交通 、 金 融 证 券 、 
交友 网 聚 和 智力 竞猜 等 受 欢迎 的 服务 ,让 服务 商 和 用 户 都 抛 开 厚 重 的 手册 和 复杂 的 编码 , 代 
之 以 口语 化 的 自然 语言 通过 短信 输入 ,短信 系统 能 迅速 理解 用 户 的 意图 ,提供 准确 .周到 的 
信息 和 服务 。 这 样 的 服务 将 直接 刺激 用 户 使 用 短信 服务 的 兴趣 和 频率 ,并 为 短信 服务 商 和 
电信 运营 商 开 发 更 新 的 .更 具 吸 引力 的 业务 创造 良好 条 件 。 

2) 智能 聊天 机 器 人 

目前 流行 于 各 大 网 站 各 类 即时 通信 软件 的 聊天 机 器 人 已 经 应 用 成 熟 的 自然 语言 理解 
技术 ,不仅 实 现 了 基本 的 、 简 单 的 对 话 交流 、 信 息 查 询 等 功能 。 还 可 以 通过 与 用 户 对 话 、 聊 天 
等 生动 .灵活 的 形式 ,了 解 用 户 的 需求 ,利用 智能 搜索 技术 采集 和 分 析 互 联网 和 知识 库 的 内 
容 , 进 行 自 动 过 滤 、 筛 选 . 获 取 有 效 内 容 , 对 相关 信息 内 容 进行 智能 化 编辑 整理 ,并 返回 给 用 
户 ; 这 样 , 聊 天 机 器 人 的 服务 将 会 更 易 用 和 实用 ,能 够 实现 功能 强大 而 实用 的 智能 聊天 、 智 
能 游戏 ,个 性 化 的 新 闻 定制 ,智能 网 络 搜索 \ 智 能 电子 商务 等 ,给 用 户 带 来 极 大 的 方便 和 无 穷 
的 乐趣 。 

3) 智能 搜索 引擎 

普通 的 搜索 引擎 引入 自然 语言 理解 和 知识 管理 技术 ,构造 成 新 的 智能 搜索 引擎 ,就 能 提 
供 全 新 的 信息 查询 服务 ,创造 更 综合 的 增值 服务 。 目 前 的 搜索 引擎 由 于 只 使 用 关键 词 匹配 ， 
没有 引入 自然 语言 理解 ,每 次 搜索 时 只 是 按照 关键 词 进行 匹配 ,返回 的 大 量 信息 和 链接 ,其 
中 很 大 部 分 是 垃圾 信息 或 者 不 是 用 户 需 要 的 信息 ,往往 导致 用 户 无 所 适 从 。 而 门户 网 站 或 
者 专业 网 站 虽然 对 信息 进行 很 好 的 分 类 ,但 是 首先 要 用 户 记 住 网 址 ,还 要 懂得 分 类 标准 , 然 
后 逐 层 单 击 相应 的 分 类 链接 ,才能 获得 所 需 信 息 。 这 样 的 信息 分 类 查询 给 信息 服务 商 带 来 
很 大 的 工作 量 , 服 务 成 本 和 进入 门槛 显著 提高 ,而 用 户 使 用 起 来 也 不 方便 ,导致 用 户 的 流失 。 
基于 内 容 的 智能 搜索 引擎 是 依靠 语义 网 络 、 分 词 、 句 法 分 析 、 同 义 词 处 理 等 请 言 理解 技术 最 
大 程度 地 了 解 用 户 的 信息 需求 ,获得 更 高 的 易 用 性 、 更 准确 的 范围 定位 和 更 智能 的 搜索 
结果 。 

运用 先进 的 自然 语言 理解 技术 ,智能 搜索 引擎 可 以 识别 并 回答 用 户 的 问题 ,使 用 户 摆脱 
传统 搜索 引擎 基于 关键 字 的 束缚 ,指引 用 户 更 有 效 、 更 快捷 地 寻找 到 所 需 信 息 , 同 时 为 用 户 
提供 相关 的 、 有 参考 价值 的 其 他 内 容 。 由 于 这 些 特 点 ,使 得 智能 搜索 能 够 在 互联 网 信息 检索 
的 各 个 方面 得 到 广泛 应 用 。 它 可 以 为 大 型 综合 搜索 引擎 提供 后 台 支 持 , 使 之 具有 人 性 化 、 交 
互 性 的 特点 。 它 能 够 方便 地 实现 垂直 搜索 引擎 的 专业 类 别 搜索 ,当然 也 可 以 为 信息 门户 网 
站 提供 方便 快捷 的 站 内 信息 搜索 服务 。 

智能 搜索 引擎 除了 在 互联 网 上 使 用 外 ,也 可 以 支持 WAP 协议 而 应 用 在 手机 上 。 其 实 
用 户 往往 在 逛街 .旅游 .交通 等 室外 环境 、 移 动 状态 时 更 需要 随时 查询 信息 。 手 机 是 很 好 的 
查询 工具 ,但 是 手机 的 屏幕 小 .内 存 少 \ 带 宽 罕 ,不 适合 接收 和 保存 大 量 的 信息 ,更 不 可 能 翻 
看 数 以 百 计 、 千 计 的 信息 。 传 统 的 基于 关键 词 搜索 或 者 分 类 信息 查询 模式 都 存在 一 定 的 缺 


陷 , 特 别 不 适合 在 手机 上 使 用 ; 而 基于 自然 语言 理解 的 智能 搜索 引擎 ,能 很 好 地 为 手机 用 户 
提供 随时 、 随 地 、 随 心 的 信息 服务 。 

用 户 们 呼唤 自然 语言 理解 ,因为 它 是 人 机 交互 的 最 高 境界 ,是 人 机 交互 最 自然 的 方式 。 
有 理由 相信 ,在 不 远 的 将 来 ,任何 人 ,任何 时 刻 、 在 任何 场所 和 任何 设备 上 ,都 可 以 通过 自然 
语言 方便 地 浏览 网 页 、 互 递 信息 ,实现 随时 随地 沟通 交流 的 目标 。 


9.1.3 实现 过 程 


与 结构 化 的 数据 相 比 ,Web 是 异 构 的 、 非 结构 化 或 半 结 构 化 的 、 动 态 的 数据 ,并 且 容 易 
造成 混淆 ,所 以 很 难 直接 实现 Web 挖掘 ,必须 经 过 必要 的 预 处 理 。 

典型 的 Web 挖掘 实现 过 程 概括 如 下 : 

(1) Web 资源 搜集 。 

Web 资源 搜集 旨 在 获取 数据 ,值得 注意 的 是 有 时 信息 资源 不 仅 限 于 在 线 Web 文档 ,还 
包括 电子 邮件 .电子 文档 .新 闻 组 或 者 网 站 日 志 甚至 是 通过 Web 形成 的 交易 数据 库 的 数据 。 

(2) 预 处 理 。 

预 处 理 是 指 从 获取 的 Web 资源 中 剔除 无 用 信息 并 进行 必要 的 处 理 , 例 如 从 Web 中 自 
动 删除 广告 链接 、 多 余 格式 标记 ,自动 识别 段落 或 者 字段 并 组 织 成 规整 的 逻辑 形式 甚至 是 关 

Web 的 内 容 是 人 类 所 使 用 的 自然 语言 ,计算 机 很 难 理解 其 语义 。 这 些 特殊 性 使 得 现 有 
的 数据 挖掘 技术 无 法 直接 应 用 于 Web 挖掘 。 需 要 对 Web 进行 分 析 , 抽 取代 表 其 特征 的 元 
数据 。 这 些 特 征 可 以 用 结构 化 的 形式 保存 ,作为 Web 的 中 间 表 示 形 式 。 

在 对 Web 进行 特征 提取 前 ,需要 先进 行 预 处 理 。 对 于 英文 需 进 行 词 干 化 (Stemming) 
处 理 , 中 文 的 情况 则 不 同 ,因为 中 文 的 词 与 词 之 间 没 有 固有 的 间隔 符 ( 空 格 ) ,需要 进行 分 词 
处 理 。 所 谓 分 词 是 在 中 文 文本 的 各 词 条 间 加 入 分 隔 符 ,将 中 文 文本 的 连续 字 流 形式 转化 为 
离散 的 词 流 形式 。 引 入 分 词 主 要 是 为 后 继 的 处 理 做 准备 。 自 20 世纪 80 年 代 初 提出 自动 分 
词 以 来 ,已 出 现 许 多 分 词 方法 ,目前 主要 包括 正 向 ,逆向 最 大 匹配 法 、 逐 词 遍历 法 、 最 佳 匹配 
法 和 词 频 统计 法 ,此 外 还 有 二 次 扫描 法 和 邻接 约束 法 等 。 大 致 可 以 归纳 为 四 类 : 第 一 类 为 
基于 词典 的 机 械 分 词 算法 ; 第 二 类 为 基于 统计 的 分 词 算法 ; 第 三 类 为 第 一 、 二 类 混合 的 分 
词 算法 ; 第 四 类 为 基于 知识 的 分 词 专家 系统 。 在 具体 应 用 中 ,需要 根据 具体 情况 选择 不 同 
的 分 词 方法 ,不 同 分 词 方法 的 正确 性 很 大 程度 上 取决 于 所 建 的 词 库 。 一 个 词 库 应 具有 完备 
性 和 完全 性 两 个 方面 。 所 谓 完备 性 ,简单 而 言 是 对 任意 一 个 字 串 ,总 能 按 词 库 找到 对 它 进行 
切 分 的 方法 ; 所 谓 完全 性 , 则 意味 着 词 库 应 当 包 含 所 有 的 词 。 建 立 一 个 同时 满足 上 述 两 个 
要 求 的 词 库 具有 很 大 难度 ,而 对 于 某 一 系统 而 言 ,可 能 只 用 到 其 中 的 一 部 分 ,因此 在 构造 词 
典 时 需要 量力 而 行 , 在 完备 和 效率 之 间 折 中 。 

(3) 特征 抽取 。 

(4) 模式 发 现 。 

自动 地 发 现 模式 , Web 挖掘 所 产生 的 知识 模式 , 既 可 以 是 对 各 Web 含义 的 概括 ,也 可 
以 是 有 关 整 个 Web 集合 的 结构 或 趋势 描述 。 
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(5) 模式 评价 

验证 ,解释 上 一 步骤 产生 的 模式 , 既 可 以 机 器 自动 完成 ,也 可 与 分 析 人 员 一 起 完成 。 

最 后 对 挖掘 出 的 模式 进行 质量 评价 , 若 评价 的 结果 满足 一 定 的 
要 求 , 则 存储 这 一 知识 ,否则 返回 到 前 面 的 某 个 步骤 ,分 析 改 进 后 进 
行 新 一 轮 的 挖掘 。 Web 资 源 获取 

值得 注意 的 是 ,Web 挖掘 作为 一 个 完整 的 过 程 ,在 挖掘 之 前 的 
信息 检索 (Information Retrieval, IR) 和 信息 抽取 (Information 
Extraction, IE) 4H 24 E E, IR. 旨 在 获取 相关 的 Web; IE Et TEM 
Web 中 找到 所 需 信 息 , 对 文档 的 结构 和 所 表达 的 含义 感 兴趣 ,其 重 
要 任务 之 一 是 对 Web 进行 组 织 、 整 理 并 适当 建立 索引 。 模式 发 现 

IR f IE 的 研究 由 来 已 久 , 随 着 Web 技术 的 发 展 ,基于 Web 的 
信息 检索 和 抽取 获得 更 多 的 关注 。 由 于 Web 数量 庞大 , 且 动态 变 
化 ,以 原来 手工 方式 收集 Web 早已 力不从心 ,目前 采用 自动 化 、 半 自 
动 化 的 方法 实现 Web 信息 检索 和 抽取 。 


特征 抽取 


综 上 所 述 ,Web 挖掘 的 基本 流程 如 图 9. 3 所 示 。 图 9.3 Web 挖掘 的 
对 Web 的 处 理 可 分 为 数据 获取 ,数据 预 处 理 ,数据 的 转换 集成 、 基本 流程 


知识 发 现 和 模式 分 析 等 几 个 步骤 ,如 图 9.4 所 示 。 


ER 数据 数据 的 ”|_| 模式 发 现 
数据 获取 - 预 处 理 -| 转换 集成 模式 分 析 


关联 规则 
聚 类 分 类 
序列 分 析 


9.4 Web 数据 处 理 步 又 


数据 来 源 主要 包括 Log 日 志 , 记 录 了 用 户 的 访问 页 面 .时 间 和 IP 地址 等 主要 信息 ; 
Web 内 容 , 用 户 浏览 的 文字 ,图片 等 ; 用 户 注册 信息 , Web 站 点 采集 的 用 户 输入 的 自身 信 
息 ; Web 结构 数据 , 指 Web 本 身 在 频道 和 链接 上 的 布局 。 获 取 的 方法 主要 有 服务 器 端 信 
A ,服务 器 端的 日 志文 件 是 Web 使 用 挖掘 重要 的 数据 来 源 ; 客户 端的 数据 收集 ,用 户 客户 
端的 Log 文件 记录 了 该 用 户 对 各 个 网 站 的 访问 情况 , 比 起 服务 器 端的 日 志 能 更 准确 地 记录 
用 户 的 访问 行为 ,但 是 由 于 隐私 保密 ,需要 用 户 同意 才能 获得 ; 代理 服务 器 端的 数据 收集 ， 
代理 服务 器 端的 日 志文 件 记录 了 客户 端 用户 通 过 代理 服务 器 对 各 个 网 站 的 访问 行为 ,但 是 
由 于 cache 的 大 量 存在 ,使 得 代理 服务 器 端的 Log 数据 不 能 准确 地 确定 用 户 和 时 间 ,采集 信 
息 也 不 全 面 。 

Web 的 预 处 理 包含 数据 清洗 ,用户 识别 、 会 话 识别 和 事务 识别 等 过 程 。 数 据 清 洗 是 指 
删除 Web 日 志 中 与 挖掘 无 关 的 数据 ,目的 是 消除 元 余 ; 用 户 识 别 指 分 离 特定 用 户 的 访问 日 
志 , 常 用 的 方法 主要 有 通过 用 户 注册 信息 ,利用 cookie 技术 和 利用 Web 站 点 结构 结合 启发 
式 的 规则 确定 用 户 ; 会 话 识别 的 目的 是 将 用 户 的 访问 记录 分 割 成 若干 个 独立 的 会 话 进程 ， 
来 挖掘 会 话 间 的 知识 信息 ; 事务 识别 用 来 细 化 会 话 的 粒度 ,采用 的 方法 主要 有 引用 长 度 、 最 
大 向 前 路 径 和 时 间 窗 口 。 前 两 种 方法 是 基于 语义 对 用 户 会 话 进行 划分 的 ,后 一 种 方法 通常 


作为 比较 其 他 两 种 方法 的 基准 。 
数据 的 转换 和 集成 是 把 经 过 预 处 理 的 数据 ,按照 某 种 格式 统一 存储 到 数据 库 中 。 
知识 发 现 和 模式 分 析 是 利用 格式 化 的 数据 进行 关联 分 析 、 序 列 模式 发 现 、 访 问 路 径 分 析 
和 分 类 聚 类 分 析 等 。 知 识 发 现 和 模式 分 析 取 决 于 最 终 的 挖掘 目标 ,通过 挖掘 ,发 现 对 决策 用 
意义 的 信息 。 上 述 步骤 是 Web 挖掘 任务 的 实施 过 程 , 需 要 对 客户 的 需求 有 明确 的 理解 ,以 
及 对 挖掘 结果 做 出 合理 的 解释 和 展现 。 


9.2 Web 资源 获取 


1. 定义 

网 络 聆 虫 (Crawler) 是 一 种 自动 提取 网 页 的 程序 ,使 搜索 引擎 从 互联 网 上 下 载 网 页 ,是 
搜索 引擎 的 重要 组 成 部 分 。 疏 虫 从 一 个 或 若干 初始 网 页 的 URL 开始 ,通过 分 析 该 URL 的 
源 文件 ,提取 出 新 的 网 页 链接 ,继而 通过 这 些 链 接 继续 寻找 新 的 链接 ,这 样 一 直 循 环 下 去 , 直 
到 抓 取 并 分 析 完 所 有 的 网 页 为 止 。 当 然 这 是 理想 状态 下 的 息 虫 ,但 实际 上 要 抓 取 互联 网 上 
所 有 的 网 页 是 不 可 能 的 ,从 目前 公布 的 数据 来 看 ,最 好 的 搜索 引擎 也 只 是 获取 了 整个 网 络 上 
KHA 40% 的 网 页 。 这 有 两 个 原因 : 其 一 是 网 络 疏 虫 的 抓 取 技术 瓶颈 造成 的 ,无 法 遍历 所 有 
的 网 页 ,很 多 网 页 链接 不 能 从 其 他 网 页 上 得 到 ; 其 二 是 存储 技术 和 处 理 技术 造成 的 ,如 果 按 
每 个 页 面 是 平均 20KB, 那 么 100 亿 个 页 面 大 小 就 是 200 000GB, 现 有 的 存储 技术 根本 无 法 
满足 。 

2. 常用 工具 

1) Nutch 

Nutch 是 一 个 开源 的 Java 实现 的 搜索 引擎 。 它 提供 了 运行 搜索 引擎 所 需 的 全 部 
工具 。 

Nutch 是 一 个 基于 Lucene, 类似 Google 的 完整 网 络 搜索 引擎 解决 方案 ,基于 Hadoop 
的 分 布 式 处 理 保证 了 系统 的 性 能 ,类 似 Eclipse 的 插件 机 制 保证 了 系统 的 可 客户 化 ,而 且 很 
容易 集成 到 应 用 中 。 

相对 于 商用 搜索 引擎 ,Nutch 具有 下 列 优势 : 

(1) 透明 度 高 。 商 用 搜索 引擎 都 采用 私有 的 排序 算法 ,因此 无 法 知道 搜索 出 来 的 排序 
结果 是 如 何 算出 来 的 。 而 Nutch 的 开源 让 任何 人 都 可 以 查看 其 排序 算法 是 如 何 工作 的 。 
另 一 些 搜索 引擎 允许 竞价 排名 ,而 不 是 根据 它们 本 身 的 价值 进行 排序 ,这 样 的 索引 结果 并 不 
是 和 站 点 内 容 相 关 。 对 学 术 搜 索 和 政府 类 站 点 的 搜索 而 言 ,一 个 公平 的 排序 结果 是 非常 重 
要 的 ,因此 Nutch 是 一 个 好 选择 ,更 值得 大 家 信赖 。 

(2) 良好 的 扩展 性 。 集 成 Nutch 的 方式 十 分 灵活 。 它 可 以 直接 集成 到 站 点 ,为 用 户 提 
供 搜索 服务 ; 采用 Nutch 的 插件 机 制 打 造 一 个 搜索 不 同 信 息 载体 的 搜索 平台 ; 还 可 以 被 定 
制 并 集成 到 应 用 程序 中 。 

(3) 开放 的 源 代码 让 我 们 可 以 了 解 一 个 大 型 分 布 式 的 搜索 引擎 是 如 何 工 作 的 ,从 而 对 
搜索 引擎 有 更 好 的 理解 。 
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2) Heritrix 

Heritrix 是 一 个 开源 .可 扩展 的 Web EE., Heritrix 设计 成 严格 按照 robots. txt 文件 
格式 和 META robots 标签 。 

Heritrix 是 一 个 仆 虫 框架 ,可 加 入 一 些 可 互 换 的 组 件 。 它 的 执行 是 递归 进行 的 ,主要 步 
又 如 下 : 

。 在 预定 的 URI 中 选择 一 个 。 

。 获 取 URL, 

。 分 析 , 归 档 结 果 。 

。 选择 已 经 发 现 的 感 兴趣 的 URI, 加 入 预定 队列 。 

。 标记 已 经 处 理 过 的 URL。 

Heritrix 主要 包括 三 大 部 件 : 范围 部 件 .边界 部 件 和 处 理 器 链 。 

CD 范围 部 件 : 主要 按照 规则 决定 将 哪个 URI 入 队 。 

(2) 边界 部 件 : 跟踪 哪个 预定 的 URI 将 被 收集 ,和 已 经 被 收集 的 URI, 选 择 下 一 个 
URI, 剔 除 已 经 处 理 过 的 URI. 

G) 处 理 器 链 : 包含 若干 处 理 器 获取 URI, 分 析 结 果 ,将 它们 传 回 给 边界 部 件 。 

3) WebSPHINX 

WebSPHINX 是 一 个 Java 类 包 和 Web 疏 虫 的 交互 式 开发 环境 。Web Jf da h m] [Appt 
器 人 或 蜘蛛 ) 是 可 以 自动 浏览 与 处 理 Web 页 面 的 程序 。WebSPHINX 由 两 部 分 组 成 : 疏 虫 
工作 平台 和 WebSPHINX 类 包 。 

4) WebLech 

WebLech 是 一 个 功能 强大 的 Web 站 点 下 载 和 镜像 工具 。 它 支持 按 功 能 需求 下 载 Web 
站 点 并 能 够 尽 可 能 模仿 标准 Web 浏览 器 的 行为 。WebLech 具有 一 个 功能 控制 台 并 采用 多 
线程 操作 。 

5) Arale 

Arale 主要 为 个 人 使 用 而 设计 ,而 没有 像 其 他 和 仆 虫 那样 关注 于 页 面 索 引 。Arale 能 够 下 
WEA Web 站 点 或 来 自 Web 站 点 的 某 些 资源 。Arale 还 能 够 把 动态 页 面 映射 成 静态 页 面 。 

6) J-Spider 

J-Spider 是 一 个 完全 可 配置 和 定制 的 Web Spider 引擎 。 可 以 利用 它 来 检查 网 站 的 错 
误 (内 在 的 服务 器 错误 等 ) 和 网 站 内 外 部 链接 ,分 析 网 站 的 结构 (可 创建 一 个 网 站 地 图 ) ,下 载 
整个 Web 站 点 ,还 可 以 写 一 个 JSpider 插件 扩展 所 需要 的 功能 。 

7) Spindle 

Spindle 是 一 个 构建 在 Lucene 工具 包 之 上 的 Web 索引 /搜索 工具 。 它 包括 一 个 用 于 创 
建 索引 的 HTTP Spider 和 一 个 用 于 搜索 这 些 索引 的 搜索 类 。Spindle 提供 了 一 组 JSP 标签 
库 使 得 那些 基于 JSP 的 站 点 不 需要 开发 任何 Java 类 就 能 够 增加 搜索 功能 。 

8) Arachnid 

Arachnid 是 一 个 基于 Java 的 Web Spider 框架 。 它 包含 一 个 简单 的 HTML 解析 器 能 
够 分 析 包含 HTML 内 容 的 输入 流 。 通 过 实现 Arachnid 的 子 类 就 能 够 开发 一 个 简单 的 
Web Spiders 并 能 够 在 Web 站 点 上 的 每 个 页 面 被 解析 之 后 增加 几 行 代码 调用 。Arachnid 的 
下 载 包 中 包含 两 个 Spider 应 用 程序 例子 用 于 演示 如 何 使 用 该 框架 。 


9) LARM 

LARM 能 够 为 Jakarta Lucene 搜索 引擎 框架 的 用 户 提供 一 个 纯 Java 的 搜索 解决 方案 。 
它 包含 能 够 为 文件 ,数据 库 表 建立 索引 的 方法 和 为 Web 站 点 创建 索引 的 候 虫 。 

10) JoBo 

JoBo 是 一 个 用 于 下 载 整个 Web 站 点 的 简单 工具 。 它 本 质 是 一 个 Web Spider。 与 其 他 
下 载 工 具 相 比 其 主要 优势 是 能 够 自动 填充 form( 如 自动 登录 ) 和 使 用 cookies 处 理 session, 
JoBo 还 有 灵活 的 下 载 规则 (如 通过 网 页 的 URL K, MIME 类 型 等 ) 来 限制 下 载 。 

11) snoics-reptile 

snoics- reptile 是 用 纯 Java 开发 的 ,是 进行 网 站 镜像 抓 取 的 工具 ,可 以 使 用 配制 文件 中 
提供 的 URL 入 口 ,把 这 个 网 站 所 有 的 能 用 浏览 器 通过 GET 的 方式 获取 的 资源 全 部 抓 取 到 
本 地 ,包括 网 页 和 各 种 类 型 的 文件 ,如 图 片 flash, mp3 ,zip rar exe 等 文件 。 可 以 将 整个 网 
站 完整 地 下 载 至 硬盘 内 ,并 能 保持 原 有 的 网 站 结构 不 变 。 只 需要 把 抓 取 下 来 的 网 站 放 到 
Web 服务 器 (如 Apache) 中 ,就 可 以 实现 完整 的 网 站 镜像 。 

12) Web-Harvest 

Web-Harvest 是 一 个 Java 开源 的 Web 数据 抽取 工具 。 它 能 够 收集 指定 的 Web 页 面 
并 从 这 些 页 面 中 提取 有 用 数据 。Web-Harvest 主要 是 运用 了 像 XSLT、XQuery 正则 表达 式 
等 技术 实现 对 text/xml 的 操作 。 


9.3 Web 预 处 理 


Web 挖掘 与 传统 的 数据 挖掘 相 比 具有 许多 独特 之 处 。 首 先 , Web 挖掘 的 对 象 是 大 量 、 
异 质 和 分 布 的 Web。 我 们 认为 ,以 Web 作为 中 间 件 对 数据 ( 仓 ) 库 进行 挖掘 ,以 及 对 Web JR 
务 器 上 的 日 志 、 用 户 信息 等 开展 挖掘 , 仍 属 于 传统 的 数据 挖掘 范畴 ; 其 次 , Web fei 4H Ed 
一 个 由 文档 结 点 和 超 链 接 构成 的 图 ,因此 Web 挖掘 所 得 到 的 模式 可 能 是 关于 Web 内 容 的 ， 
也 可 能 是 关于 Web 结构 的 。 此 外 ,由 于 Web 本 身 是 半 结 构 或 无 结构 的 , 且 缺 乏 机 器 可 理解 
的 语义 ,而 数据 挖掘 的 对 象 局 限于 数据 ( 仓 ) 库 中 的 结构 化 数据 ,并 利用 关系 表 等 存储 结构 发 
现 知识 ,因此 有 些 数据 挖掘 技术 并 不 适用 于 Web 挖掘 ,即使 可 用 也 需要 建立 在 Web 预 处 理 
的 基础 之 上 。 这 样 ,开发 新 的 Web 挖掘 技术 ,以 及 对 Web 进行 预 处 理 以 得 到 关于 Web 的 
特征 表示 , 便 成 为 Web 挖掘 研究 的 重点 。 


9.3.1 Web 过 滤 


浏览 Web ,我 们 会 发 现 它 们 通常 包含 两 部 分 内 容 : 一 部 分 内 容 体现 的 是 网 页 的 主题 信 
息 , 例 如 一 个 新 闻 网 页 中 的 新 闻 部 分 , 称 为 “主题 "内 容 ; 另 一 部 分 则 是 与 主题 内 容 无 关 的 导 
航 条 、 广 告 信息 、 版 权 信息 以 及 调查 问卷 等 内 容 , 称 为 噪音” 内容。 噪音 内 容 通常 分 布 在 主 
题 内 容 周 围 ,: 有 时 也 夹杂 在 主题 内 容 中 间 ,通常 是 以 链接 导航 文字 (anchor text) 的 形式 出 
现 。 品 音 内 容 一 般 无 内 容 相 关 性 ,同时 ,它们 链接 的 网 页 常常 也 无 内 容 相关 性 。 这 样 , 网 页 
中 的 噪音 不 仅 给 基于 网 页 内 容 的 应 用 系统 带 来 困难 ,也 给 基于 网 页 超 链 接 指 向 的 应 用 系统 
带 来 麻烦 。 
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1. 国内 外 研究 现状 

随 着 网 络 技术 的 发 展 , 基 于 Web 的 信息 检索 变 得 越 来 越 重 要 。 但 是 Web 除了 有 用 的 
信息 之 外 ,还 包括 一 些 和 网 页 主题 内 容 关联 不 大 的 部 分 ,如 网 页 的 页 眉 、 导 航 栏 和 著作 权 声 
明 等 ,这 些 部 分 被 称 作 噪 音 块 。 为 了 保证 网 页 信息 检索 的 准确 性 ,在 对 网 页 进行 关键 词 抽取 
或 主题 抽取 等 操作 前 ,需要 将 噪音 块 过 滤 出 去 。 如 何 采用 自动 方式 去 除 网 页 噪音 成 为 研究 
的 一 个 热点 。 

有 文献 认为 所 有 的 噪音 块 具有 相似 的 风格 ,基于 此 提出 了 Site Style Tree(SST ,站 点 风 
格 树 ) 的 思想 ,在 对 网 站 网 页 取样 建立 SST 后 ,通过 SST 的 测量 ,得 到 噪音 部 分 。 这 种 算法 
的 目的 是 在 整个 网 站 中 寻找 噪音 部 分 。 

Yu 等 提出 了 基于 视觉 的 Web 页 面 分 割 (Vision-based Page Segmentation, VIPS) ,该 
算法 综合 考虑 了 文件 对 象 模 型 (DOM) 中 具有 特殊 作用 的 标签 (如 P 表示 一 段 文字 的 开始 ， 
UL 用 来 表示 一 个 列表 ) 和 视觉 上 的 分 隔 符 (如 空白 区 域 . 字 体 大 小 ) ,将 一 个 网 页 分 割 成 语 
义 上 相近 的 段落 。 

有 文献 针对 动态 产生 的 网 页 使 用 Hish 算法 对 Augmented Fragment CAF) 3E fT 
shingles 编码 ,通过 编码 检测 网 页 子 树 的 变化 情况 ,由 此 找 出 噪音 部 分 。 上 述 算法 能 够 找到 
网 页 中 的 重要 部 分 ,但 是 那些 不 重要 的 部 分 不 一 定 为 噪音 块 。 

在 对 网 页 进行 分 类 时 ,由 于 噪音 内 容 与 主题 无 关 , 因 此 训练 集中 的 噪音 内 容 会 导致 各 类 
别 的 特征 不 够 明显 ,而 待 分 类 网 页 中 的 噪音 内 容 则 会 导致 该 网 页 类 别 不 明确 ,因而 影响 网 页 
自动 分 类 的 效果 。 将 网 页 净化 用 于 分 类 器 的 目的 则 是 先 去 除 原始 网 页 中 的 噪音 内 容 , 而 后 ， 
利用 净化 后 的 网 页 进行 分 类 器 训练 (特征 项 选取 ) 并 对 净化 后 的 网 页 进行 分 类 ,从 而 达到 提 
高 分 类 准确 性 的 效果 。 

在 主题 搜索 领域 ,大 量 的 广告 .导航 条 等 噪音 内 容 会 导致 主题 漂移 (topic drift) 。 这 说 
明 传 统 的 主题 搜索 算法 中 以 网 页 为 粒度 构造 的 网 络 图 不 够 准确 ,必须 深入 到 网 页 内 部 将 处 
理 单元 的 粒度 缩小 ,才能 提高 内 容 分 析 的 准确 性 。 在 网 页 信息 提取 领域 ,自动 识别 模式 的 方 
法 必须 要 从 整个 网 页 中 提取 模式 ,而 不 是 只 针对 主题 内 容 进 行 提取 。 因 此 ,在 净化 后 的 网 页 
上 作 信 息 提取 不 仅 可 以 排除 噪音 信息 对 信息 提取 的 干扰 ,提高 信息 提取 的 准确 性 ,而 且 可 以 
使 得 网 页 中 的 结构 简单 化 ,提高 信息 提取 的 效率 。 

从 上 述 分 析 看 到 ,网 页 中 有 用 的 大 量 数据 往往 都 被 许多 噪音 数据 所 干扰 , 包括 广告 、 导 
航 条 ,版 权 说 明 等 。 尽 管 这 些 噪 音 对 于 在 互联 网 上 浏览 的 用 户 而 言 有 一 定 的 功能 性 作用 。 
但 是 ,它们 也 妨碍 了 网 页 的 自动 收集 和 挖掘 ,包括 网 页 自动 分 类 、 聚 类 .信息 抽取 和 信息 检索 
等 的 准确 性 效率 和 人 性能。 噪音 对 基于 Web 内 容 的 智能 搜索 平台 的 研究 的 影响 是 普遍 而 严 
重 的 ,而 通过 比较 去 除 噪声 前 后 网 页 的 分 类 正确 率 , 可 以 看 出 使 用 净化 后 的 网 页 进行 分 类 器 
的 训练 和 分 类 ,会 较 好 地 提高 分 类 精度 ,同样 ,将 净化 后 的 网 页 应 用 到 基于 内 容 的 网 页 文本 
处 理 系统 中 ,也 会 很 好 地 提高 网 页 处 理 系统 的 精度 ,所 以 网 页 净化 成 为 Web 预 处 理 环节 中 
一 个 必 不 可 少 的 工作 。 

2. 主要 算法 

目前 ,比较 通用 的 网 页 噪音 过 滤 算 法 如 下 : 

CD 基于 可 视 化 布局 信息 的 网 页 噪音 过 滤 算 法 。 针 对 单一 网 页 中 包含 的 丰富 的 可 视 化 


信息 ,获取 页 面 中 各 个 元 素 标 记 的 布局 信息 ,然后 利用 布局 信息 对 页 面 进行 划分 ,最 后 在 此 
基础 上 去 除 噪 音 结 点 。 

(2) 基于 网 页 内 容 结构 表示 法 过 滤 噪 音 算法 。 多 数 网 站 的 Web 是 由 预先 定义 好 的 模 
H (templates) 自动 生成 ,具有 相同 的 布局 结构 和 风格 。 如 果 网 页 中 部 分 结构 和 内 容 ( 如 图 
像 .链接 等 ) 在 多 个 Web 中 出 现 ,这 些 部 分 就 是 噪音 ; 相反 , 仅 在 少数 网 页 中 出 现 的 结构 和 
内 容 , 就 是 要 提取 的 主题 内 容 。 因 此 ,基于 网 页 内 容 结构 表示 法 过 滤 噪 音 算法 的 净化 过 程 可 
以 分 为 两 个 步 又: 网 页 内 容 结构 的 表示 和 网 页 内 容 块 的 取舍 。 

(3) 基于 同 层 网 页 相似 性 过 滤 网 页 噪音 算法 。 该 算法 是 基于 同 层 网 页 具有 相似 结构 这 
一 前 提 去 除 网 页 噪音 。 同 层 网 页 即 在 网 站 的 导航 结构 下 同属 于 同一 个 结 点 的 子 结 点 的 网 
页 。 现 在 的 网 站 设计 多 采用 自动 生成 程序 (如 PHP、JSP) 或 模板 ,这 样 导致 大 部 分 网 站 的 同 
层 网 页 具有 类 似 的 显示 效果 ,而 这 些 在 同 层 网 页 中 多 次 重复 的 模块 大 多 是 导航 栏 著作 权 声 
明 等 噪音 。 通 过 网 络 疏 虫 分 析 目 标 网 页 中 的 链接 可 以 获取 同 层 网 页 。 

(4) 基于 模糊 理论 的 网 页 过 滤 算 法 。 基 于 网 页 内 容 进行 分 析 , 对 内 容 块 中 的 信息 进行 
关键 字 分 析 , 通 过 关键 字 和 数据 库 中 的 过 滤 字 典 进 行内 容 分 析 和 识别 ,如 果 内 容 块 中 包含 的 
“垃圾 ”词汇 大 于 总 词汇 的 一 个 韶 值 , 则 可 以 判别 该 区 域 块 为 噪音 区 域 。 

(5) 基于 网 页 主题 内 容 识 别 的 噪声 过 滤 算 法 。 针 对 一 个 网 面 而 言 , 字 数 最 多 的 文本 区 
域 块 便 是 该 网 页 文件 所 要 表现 的 内 容 , 其 余 的 内 容 块 有 的 是 和 主题 相关 的 背景 介绍 文字 ,或 
者 是 相关 链接 等 , 它 和 其 他 内 容 不 相关 的 广告 链接 ,导航 区 域 以 及 页 面 版 权 信息 分 布 在 主体 
内 容 周围 。 该 算法 主要 是 通过 识别 网 页 的 主题 内 容 块 ,然后 再 判别 其 余 内 容 块 和 主题 内 容 
块 的 相关 度 , 和 主体 内 容 块 相似 度 低 的 内 容 块 是 噪音 块 。 

(6) 基于 网 页 结 点 特征 识别 和 判定 过 滤 噪 音 结 点 算法 。 同 样 的 ,网 页 可 以 分 成 几 个 内 
容 区 域 ,依据 每 一 个 内 容 块 中 所 包含 的 词 项 数 与 图 片 数 和 超 链 接 数 的 比值 可 以 为 每 个 内 容 
块 设 定 一 个 类 型 ,分 为 主题 型 .多 链接 型 和 图 片 型 三 种 。 如 果 内 容 块 中 词 项 数 与 图 片 数 的 比 
值 小 于 某 一 阔 值 .该 内 容 块 就 是 图 片 型 ; 如 果 内 容 块 中 作为 链接 导航 文字 出 现 的 词 项 数 与 
该 区 域 中 总 词 项 数 的 比值 小 于 某 一 阔 值 ,该 内 容 块 就 是 多 链接 型 ,否则 为 主题 类 型 。 这 样 ， 
标签 树 中 每 个 结 点 都 有 类 型 和 属性 集 两 组 描述 性 信息 ,以 及 超 链接 集 和 重要 标签 集 等 数据 
信息 。 通 过 每 个 结 点 的 属性 , 便 能 判定 它们 属于 哪 一 个 特征 集 。 

上 述 六 种 主要 的 网 页 去 噪 算法 从 不 同 的 角度 作为 解决 问题 的 切入 点 ,从 不 同 的 侧重 点 
进行 实现 ,比较 算法 实现 的 效率 和 实际 过 滤 的 效果 ,它们 都 各 有 优 劣 。 但 是 Web 2.0 时 代 
的 到 来 ,AJAX 技术 的 大 量 运用 ,DIV 和 CSS 结合 新 的 标准 布局 , Widget 技术 的 异军突起 ， 
都 使 得 网 页 噪音 以 各 种 新 形态 出 现 , 使 得 网 页 去 噪 技术 有 着 日 新 月 异 的 改进 ,广告 展示 和 网 
页 去 品 技 术 的 较量 是 一 场 没有 硝烟 的 战争 。 

快速 准确 地 识别 并 清除 网 页 的 噪音 内 容 ( 称 为 网 页 净化 ) 是 提高 Web 应 用 程序 处 理 准 
确 性 的 一 项 关键 技术 。 首 先 , 网 页 净化 后 ,没有 了 噪音 的 干扰 , Web 应 用 程序 可 以 以 网 页 的 
主题 内 容 为 处 理 对 象 , 从 而 提高 处 理 结果 的 准确 性 。 其 次 ,网 页 净化 可 以 显著 简化 网 页 内 标 
签 结构 的 复杂 性 并 减 小 网 页 的 大 小 ,从 而 节省 后 续 处 理 的 时 间 和 空间 开销 。 因 此 ,网 页 净化 
已 成 为 Web 信息 系统 预 处 理 环节 中 一 个 必 不 可 少 的 工作 。 
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1) 基于 可 视 化 布局 信息 的 网 页 过 滤 算 法 

虽然 XML 发 展 很 快 ,但 目前 网 络 上 大 部 分 的 页 面 还 是 由 HTML 实现 ,但 是 由 于 
HTML 本 身 不 具备 自 描述 的 特性 ,页 面 书写 时 负责 显示 和 承担 主题 描述 的 信息 混在 一 起 ， 
并 且 设 计 者 可 以 随意 的 把 各 种 内 容 加 入 到 页 面 中 ,因此 网 页 中 充满 与 主题 无 关 的 噪音 是 常 
见 的 现象 。 网 页 噪音 根据 其 划分 粒度 的 不 同 ,可 从 整个 Web 和 单一 页 面 本身 加 以 定义 。 

定义 1: 全 局 噪音 

在 对 Web 上 的 一 组 页 面 集 进 行 挖掘 或 聚 类 时 , 若 一 个 网 页 所 存留 的 副本 ,如 镜像 网 站 、 
复制 的 页 面 及 旧版 本 的 页 面 都 在 此 页 面 集中 , 则 这 些 副 本 称 为 噪音 , 即 全 局 噪音 。 

定义 2: 局 部 噪音 

在 一 个 页 面 内 与 页 面 主题 无 关 的 区 域 和 项 。 这 些 噪音 包括 广告 栏 、 导 航 条 和 修饰 作用 
的 图 片 等 。 

Web 中 常见 噪音 的 类 型 如 下 : 

。 导航 类 一 一 为 了 维持 网 页 间 的 链接 关系 ,方便 浏览 者 对 网 站 进行 浏览 而 设置 的 


链接 。 
。 修饰 类 一 一 为 了 美化 页 面 而 采用 的 背景 .修饰 图 片 和 动画 等 。 如 站 点 标志 图 片 、 广 
”交互 类 一 一 为 了 收集 用 户 提交 信息 或 提供 站 内 搜索 服务 的 表单 等 。 如 在 线 的 问卷 
调查 表 。 


。 其 他 类 一 一 网 页 中 声明 的 版 权 信息 、 创 建 时 间 和 作者 等 描述 性 信息 。 

在 对 网 页 的 编程 中 会 用 到 文档 对 象 模型 (DOM) 。DOM 提供 了 访问 页 面 中 各 个 元 素 属 
性 与 方法 的 接口 。 每 一 个 网 页 都 会 对 应 一 个 DOM 树 。 通 过 对 DOM 树 的 遍历 ,可 以 对 页 
面 中 每 一 个 元 素 进行 处 理 。 如 可 访问 元 素 所 对 应 位 置 的 坐标 ,元 素 所 占 空间 的 宽度 和 高 度 
等 。 如 图 9. 5 所 示 为 百度 首页 的 DOM 树 , 其 中 每 个 结 点 都 有 字 节 相应 的 属性 。 


table width= "500”cellspacing= “0”cellpadding= “0”bozder= 0"> 


图 9.5 百度 首页 的 DOM 树 


虽然 网 页 中 的 噪音 很 多 , 且 网 页 设计 没有 统一 规范 .但 设计 者 大 部 分 都 将 噪音 信息 放 在 
页 面 中 的 次 要 位 置 ,以 突出 主题 。 如 版 权 信息 一 般 在 页 面 底部 ,广告 栏 一 般 在 顶部 等 。 这 种 
设计 习惯 也 为 利用 布局 信息 去 除 噪音 带 来 了 便利 。 


噪音 过 滤 算 法 的 原理 基于 以 下 常识 : 

(1) 页 面 设计 布局 上 的 常规 做 法 

通常 设计 者 在 设计 页 面 时 会 先进 行 布局 的 设计 , 即 先 用 表格 或 图 层 等 标记 在 页 面 显示 
区 域 中 勾画 出 页 面 内 容 分 布 的 区 域 。 然 后 再 在 特定 区 域内 进行 细 化 的 页 面 设计 ,把 所 需 元 
素 标 记 放 进去 。 这 种 设计 方法 ,会 用 一 些 区 域 来 存放 导航 条 版权、 广告 栏 等 信息 , 即 这 些 区 
域 为 噪音 区 域 。 

(2) 用 户 在 浏览 页 面 时 识别 页 面 主 题 的 常识 

用 户 在 浏览 网 页 时 ,可 以 很 容易 地 找到 页 面 中 表达 主题 的 区 域 而 不 会 被 导航 条 和 广告 
栏 等 所 迷惑 。 这 是 因为 用 户 会 将 自己 的 注意 力 
集中 于 页 面 中 部 大 块 的 区 域 , 即 设计 者 通常 用 来 m 
存放 页 面 主题 内 容 的 区 域 。 用 户 浏 览 时 会 下 意 开始 
识 地 将 页 面 进行 划分 ,而 将 一 些 噪 音 区 域 略 掉 ， 
这 正 是 机 器 去 除 噪 音 难 于 做 到 的 事情 。 

如 图 9. 6 所 示 , 在 以 上 常识 基础 上 ,可 将 页 
面 布 局 粗 分 成 如 下 五 个 区 域 ， HEADER, LM 
FOOTER,LEFT, RIGHT, CENTER. ,分 别 代表 
页 面 的 上 、 下 \ 左 \ 右 及 中 部 区 域 。 通 过 阔 值 可 调 
整 各 区 域 大 小 。 其 中 HEK HEADER,F 代表 
FOOTER,LM 和 RM 分 别 代表 左 和 右 两 边区 页 面 
域 ,C 代表 中 部 区 域 。Hi、H;、W 、W 分 别 代表 结尾 
区 域 划分 时 所 用 的 阔 值 。 

算法 : VL PS 网 页 噪音 去 除 

输入 : 任 一 个 网 页 文件 图 9.6 可 视 化 页 面 的 区 域 结构 图 

输出 : 去 除 噪音 后 的 网 页 

将 输入 网 页 转化 为 DOM 结构 ,并 显示 ,由 DOM 得 到 页 面 实 际 大 小 

根据 页 面 实际 大 小 决定 各 区 域 的 阔 值 (上 边界 ),H (下 边界 ),WW (左边 界 ),W,( 右 边界 ) 

对 页 面 内 所 有 元 素 (BODY 标记 除外 ) 取 得 其 绝对 坐标 及 实际 大 小 (宽度 和 高 度 ) 和 由 阔 值 所 划分 出 的 

区 域 进行 比较 

若 任 一 个 元 素 E, 其 布局 信息 记 为 (LEFT, TOP) 为 其 所 占 区 域 左上 和 角 原 点 绝对 坐标 . (WIDTH, HEIGHT) id 

为 该 元 素 所 占 区 域 大 小 . 则 : 

IF E.TOP + E.HEIGHT <= H,, Jl] E Jj -T- HEADER; 

IF E. TOP >= H,, Jill] E Ji F FOOTER; 

IF E.LEFT + E.WIDTH <= W, 则 E 属 于 ILM; 

IF E.LEFT>= W, H] EJA F RM; 

所 有 未 被 划分 出 去 的 元 素 属 于 CENTER ,将 处 于 CENTER 中 的 页 面 内 容 作为 结果 返回 。 

上 述 算法 通过 一 次 对 DOM 树 的 遍历 即 可 实现 页 面 区 域 的 划分 ,并 去 除 噪音 。 算 法 中 
各 元 素 布 局 信息 的 计算 , 均 采 用 了 元 素 在 页 面 中 所 处 的 绝对 坐标 。 由 于 在 DOM 树 中 各 元 
素 存在 层次 关系 ,因此 由 DOM 直接 得 到 的 坐标 信息 是 相对 于 其 父 元 素 的 ,为 得 到 元 素 的 绝 
对 坐标 ,可 通过 回溯 由 元 素 到 BODY 标记 这 样 一 条 元 素 到 根 的 DOM 树 的 路 径 , 释 加 各 坐 
标 值 获得 。 

该 算法 最 大 的 特点 是 对 主题 内 容 定义 清晰 的 网 页 处 理 准确 率 非常 高 ,而且 处 理 的 速度 
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也 比较 快 ,但 是 对 于 主题 内 容 中 夹杂 噪音 的 情况 就 不 容易 识别 ,而 且 对 于 文字 内 容 比 较 少 
的 ,还 会 出 现 误 处 理 的 情况 。 通 过 对 5000 篇 新 浪 和 搜狐 网 页 的 分 析 , 在 实验 中 设 定 上 边 
Jt H, 为 200, 下 边界 Hz 为 160,Wi 和 Wi 为 页 面 实际 宽度 的 30%。 实 验 中 将 分 块 及 去 
除 噪音 结果 分 为 好 、 较 好 、 较 差 和 差 四 个 等 级 ,在 每 级 中 包含 的 页 面 数 占 比如 表 9. 1 
所 示 。 


表 9.1 页 面 集 品 音 去 除 结果 


好 较 好 较 差 差 
24% 52% 22% 2% 


综 上 所 述 , 基 于 可 视 化 布局 信息 的 网 页 噪音 去 除 的 算法 思想 非常 明确 和 适用 ,能 够 处 理 
大 部 分 的 网 页 结构 ,对 于 主题 内 容 区 域 明 显 的 网 页 处 理 效果 较 好 ,但 对 于 噪音 嵌入 主题 区 域 
块 的 网 页 的 效果 不 甚 理想 。 

2) 基于 网 页 结 点 特征 识别 的 网 页 过 滤 算 法 

HTML 是 一 种 标识 语言 (Markup Language) , 它 定 义 了 一 套 标 签 刻画 网 页 显示 时 的 页 
面 布局 。 因 此 ,对 于 HTML 网 页 最 常用 的 结构 表示 方法 是 构造 网 页 的 标签 树 。 现 有 的 标 
AW MIS DER. DOM 是 常用 的 标签 树 构造 工具 , 它 可 以 将 网 页 中 的 标签 按照 谋 套 关 
系 整理 成 一 棵 树 状 结构 。 针 对 网 页 净化 的 特殊 需求 ,首先 对 HTML 中 的 标签 按照 功能 进 
行 分 类 ,进而 提出 更 加 适合 网 页 净化 的 标签 树 的 构造 方法 。 依 据 标签 的 作用 可 以 将 HTML 
标签 分 为 两 类 ， 

(1) 规 划 网 页 布局 的 标签 。 如 上 所 述 ,在 视觉 上 ,网 页 是 由 若干 内 容 块 组 成 的 ,而 内 容 块 
是 由 特定 的 标签 ( 称 之 为 容器 标签 ) 规划 出 的 。 常 用 的 容器 标签 有 所 table 二 二 tr 二 、 
<td>, <p> M<div> 4f, 

(2) 描 述 显示 特点 的 标签 。 除 了 描述 布局 结构 的 标签 外 , HTML 标准 中 还 定义 了 一 套 
标签 描述 其 包含 的 内 容 本 身 。 (An. <b> 标签 说 明 所 包含 的 内 容 要 用 粗 体 显示 ， 
<img> 标签 说 明 包 含 的 是 一 个 图 片 ,二 a 二 标签 说 明 是 一 个 超 链 接 等 。 

由 于 网 页 净化 是 以 内 容 块 为 单位 进行 保留 和 删除 的 ,因此 ,依据 容器 标签 构造 标签 树 中 
的 结 点 较为 合理 。 而 其 他 类 型 的 标签 信息 可 以 作为 它 所 在 的 内 容 块 的 属性 存在 。 网 页 的 源 
文件 如 图 9. 7 所 示 ,一 棵 完整 的 标签 树 如 图 9. 8 所 示 ,其 中 link-list 和 weighty-tag-list 分 别 
记录 着 网 页 中 超 链接 信息 和 重要 标签 信息 (如 二 b 二 、 二 hl 等 ) 。 标 签 树 构 造 完成 后 ,网 页 
净化 过 程 就 变 为 对 标签 树 中 结 点 的 剪裁 。 除 了 上 述 基 本 的 标签 信息 外 ,我 们 还 可 以 归纳 计 
算出 以 下 描述 性 信息 。 

Web 根据 内 容 可 分 为 主题 网 页 \ 目 录 型 网 页 和 图 片 网 页 三 类 。 三 种 网 页 的 净化 方法 各 
不 相同 。 本 节 首 先 描述 三 种 网 页 的 特征 和 判别 方法 ,然后 对 面向 主题 网 页 的 净化 算法 进行 
详细 介绍 ,最 后 简要 介绍 面向 目录 型 网 页 和 图 片 网 页 的 算法 。 

网 页 类 型 判别 方法 从 内 容 上 看 ,三 种 类 型 的 网 页 有 着 较为 明显 的 特征 。 主 题 网 页 通常 
通过 成 段 的 文字 描述 一 个 或 多 个 主题 ,虽然 也 会 有 图 片 和 超 链接 ,但 这 些 图 片 和 超 链接 并 不 
是 网 页 的 主体 。 图 片 网 页 中 内 容 是 通过 图 片 体现 的 ,而 文字 仅仅 是 对 图 片 的 一 个 说 明 , 因 而 文 
字 不 多 ,这 也 导致 传统 的 向 量 表 示 方 法 对 图 片 网 页 不 适用 。 目 录 型 网 页 通常 不 会 描述 一 件 


1 €'DOCIYPE html PUBLIC "-//W3C//DID XHIML 1.0 Iransitional//EN" "http://www.w3. 
2 «HIML xminse"http://www.W3.org/1999/xhtml"» 

3 «BEAD» 

4 emeta http-equive"Content-Type" contente"text/html; charset=UTF-8" /> 

5 <title> 阳 光 地 和 带 -IsNayDayc/title> 

6 «/HEAD» 

7 «BODY» 

8 «div ide"urapper" classe"ri a"> 

E <div ide"header" etylee"widrh:l1000px;height:90px;font-size:9pt;"»«/div» 
o <div ide"center" classe"di" style*"color:fccc;margin:Spx;" 


A 


ii «div ide"icft" style-"color:fccc;margin:Spx:"» 

i2 <ul> 

13 <11> 设 置 </14> 

14 Ob 

is 0831: 

EI </ul> 

27 </div> 

18 <div ide"main"» 

19 <div ide" concent rM X XN — ai 
20 «div ide"content 2"> 由 于 网 页 以 内 容 块 为 单位 进行 保留 和 删除 </ 
21 </div> 

22 </div> 

23 <div ide"foocer"»«/div» 

24 «/div» 
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9.7 ”网 页 的 源 文件 


PAS [1] 结 点 Div 的 信息 
HEAD BODY . 
Div 
parentNode: Div 
chaldren: (a. a. a, p...] 
link list: {1,2,3} 
contentLen: 240 
id: content 2 


Title Meta Div 


Div Div Div 


Div Div class: content 
a attribute: 
Div Div l!l weight: 780px 
u du AS height: 100px 


AAA 
图 9.8 对 应 的 Dom 解析 树 和 [1] 结 点 的 信息 表示 


事物 ,而 是 提供 指向 相关 网 页 的 超 链接 ,因此 ,网 页 中 超 链接 密集 。 

网 页 都 有 一 定 的 布局 ,比如 分 左右 两 边 或 是 中 间 和 边缘 。 网 页 作者 通常 将 重要 的 内 容 
放 在 网 页 的 中 间 部 分 ,而 边缘 部 分 内 容 的 重要 性 相对 较 低 ,这 也 符合 人 的 浏览 习惯 。 因 此 ， 
依据 网 页 中 间 区 域 的 内 容 判 断 网 页 的 类 型 是 相对 合理 的 ,而 网 页 中 内 容 的 位 置信 息 在 构造 
的 标签 树 中 是 通过 内 容 块 的 属性 记录 下 来 的 。 在 构造 标签 树 时 ,依据 内 容 块 中 词 项 数 与 图 
片 数 的 比值 以 及 内 容 块 中 词 项 数 与 超 链接 导航 文字 中 词 项 数 的 比值 将 网 页 中 的 内 容 块 分 为 
主题 型 .多 链接 型 和 图 片 型 三 种 ,对 于 基于 内 容 块 的 类 型 ,同样 可 以 使 用 网 页 中 间 区 域 多 链 
接 型 内 容 块 包含 的 词 项 数 与 网 页 中 间 区 域 词 项 数 的 比值 来 判断 网 页 是 否 为 目录 型 网 页 。 同 
理 ,使 用 网 页 中 间 区 域 图 片 型 内 容 块 包含 的 词 项 数 与 网 页 中 间 区 域 词 项 数 的 比值 可 以 判断 
网 页 是 否 为 图 片 网 页 。 

网 页 净化 过 程 是 在 网 页 内 部 以 内 容 块 为 单位 进行 类 型 鉴别 ,以 及 重要 性 和 相关 性 评价 。 
使 用 如 式 (9. 1) 所 示 的 特征 项 权 值 计 算 公 式 , 其 中 BWeight 表示 内 容 块 的 权 值 ,其 值 由 一 个 
内 容 块 中 的 重要 标签 来 决定 ; BN 为 网 页 中 内 容 块 的 总 数 ; ?为 一 个 内 容 区 域 中 超 链 接 的 总 
数 ,BWeight; 为 网 页 中 内 容 块 的 权重 ; BT 为 关键 词 i 出 现在 内 容 块 j 中 的 词 频 。 
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E 
X BWeight; * BTE; 
i=1 


Fi Y BWeight, E wn, | 

从 上 述 净 化 方法 中 可 以 看 到 ,网 页 的 内 容 分 为 主题 内 容 .主题 相 关内 容 和 噪音 内 容 三 部 
分 。 其 中 主题 相关 内 容 可 以 用 来 调节 净化 力度 ,在 不 同 需求 的 应 用 中 ,可 以 保留 也 可 以 去 
除 。 在 网 页 分 类 中 ,保留 了 主题 相关 内 容 , 而 在 网 页 去 重 中 , 则 没有 保留 。 通 过 实验 表明 ,在 
保留 主题 相关 内 容 的 净化 力度 下 ,净化 后 的 网 页 平均 大 小 为 原始 网 页 的 59% ,而 不 保留 的 
情况 下 ,只 有 原始 网 页 的 51%。 


(9.1) 


9.3.2 Web X € 


Internet 上 超过 300 亿 个 海量 网 页 使 互联 网 成 为 当今 世界 上 最 大 的 信息 库 和 全 球 范围 
内 传播 信息 的 最 主要 渠道 ,也 为 广大 用 户 提供 了 一 个 价值 巨大 的 信息 获取 渠道 。 

网 页 的 规模 反映 了 互联 网 的 内 容 丰 富 程 度 。 自 2003 年 开始 ,中 国 的 网 页 规模 基本 保持 
翻番 增长 ,2009 年 网 页 数量 达到 336 亿 个 ,年 增长 率 超过 100%。 图 9.9 是 中 国 第 二 十 五 次 
互联 网 发 展 报告 提供 的 关于 2003 一 2009 年 的 网 页 数 统计 和 增长 率 情 况 。 从 图 9. 9 可 以 看 
出 互联 网 上 的 信息 呈现 爆炸 式 增长 的 趋势 。 


亿 个 
400 198.9% 200% 


336 


160% 
109.8%} 120% 
80% 
40% 
0% 


20034 20044 20054 20064 20074 2008 年 20094 
wmm 站 页 效 量 一 “一 年 增长 率 
图 9.9 中 国 网 页 规模 变化 趋势 


互联 网 正在 深刻 地 影响 着 信息 传播 .获取 和 存储 的 方式 ,其 高 效 性 便捷 性 、 开 放 性 和 实 
时 性 等 诸多 特点 使 其 成 为 信息 的 有 效 载体 。 人 们 越 来 越 多 地 需要 从 互联 网 上 获取 信息 、 吸 
收 信息 和 利用 信息 。 互 联网 上 的 信息 是 海量 的 ,在 这 些 海量 信息 之 中 ,必定 具有 部 分 信息 是 
元 余 的 、 重 复 的 和 相似 的 。 据 有 关 部 门 统计 显示 : 互联 网 上 相似 网 页 占 总 网 页 数 的 三 成 ,而 
完全 相同 的 网 页 占 总 网 页 数 约 两 成 。 这 些 相 似 或 相同 的 网 页 有 些 是 完全 复制 ,有 些 是 内 容 
稍 做 修改 ,有 些 仅 仅 是 网 页 格式 发 生变 化 ,并 不 能 带 来 实际 意义 ,反而 成 为 一 种 麻烦 , 带 来 资 
源 的 无 谓 消耗 和 信息 获取 效率 的 损失 。 尤 其 是 对 当前 人 们 从 互联 网 上 获取 信息 的 重要 工具 
搜索 引擎 的 影响 ,这 些 意义 不 大 的 相似 网 页 不 得 不 让 搜索 引擎 付出 额外 的 代价 , 即 ， 

"不 必要 的 存储 空间 开销 。 如 果 搜 索引 擎 能 够 将 这 些 相似 或 相同 的 网 页 从 数据 库 或 

其 他 存储 设备 中 去 掉 ,将 会 节省 不 小 的 存储 空间 以 存放 更 多 的 有 效 网 页 。 


。 不 必要 的 网 页 搜集 速度 开销 。 如 果 搜 索引 擎 能 够 在 网 页 搜集 过 程 中 绕 开 这 些 相似 
或 相同 的 网 页 ,将 会 提高 有 效 网 页 的 搜集 速度 。 

。 不 必要 的 用 户 体验 下 降 。 如 果 搜 索引 擎 能 够 返回 给 用 户 有 效 信息 多 而 元 余 信 息 少 
的 结果 ,将 大 大 提升 用 户 体验 ,用 户 不 会 因为 过 多 的 接纳 重复 元 余 信 息 而 感到 不 快 ， 
提高 用 户 信息 获取 效率 和 质量 。 

因此 对 相似 网 页 识别 技术 的 研究 是 一 个 值得 关注 的 话题 。 根 据 相 似 网 页 之 间 的 不 同 
点 ,相似 网 页 一 般 分 成 以 下 几 种 : 

。 网 页 内 容 和 格式 上 没有 什么 区 别 。 

。 网 页 内 容 相同 ,但 格式 不 同 。 

。 网 页 有 部 分 重要 的 内 容 相同 ,并 且 格 式 相同 。 

。 网 页 有 部 分 重要 的 内 容 相同 ,但 是 格式 不 同 。 

相似 网 页 之 间 相 似 性 的 定义 有 三 个 关系 上 的 特性 : 

。 自 反 性 

。 对 称 性 

。 非 传递 性 

所 谓 的 相似 网 页 识别 算法 就 是 在 给 定 大 量 的 网 页 集中 ,发 现 相似 网 页 的 过 程 。 由 
于 互联 网 上 网 页 数量 庞大 且 内 容 结构 复杂 ,这些 都 对 相似 网 页 识别 算法 的 速度 和 准确 
度 提出 了 很 高 的 要 求 , 一 个 又 快 又 准 的 相似 网 页 识别 算法 其 作用 的 重要 程度 是 不 言 而 
喻 的 。 

相似 网 页 的 识别 在 信息 检索 中 有 着 广泛 的 用 途 , 特 别 是 对 于 搜索 引擎 而 言 ,相似 网 
页 的 识别 是 一 项 重要 的 关键 技术 。 在 返回 检索 结果 前 ,将 相似 网 页 过 滤 掉 ,可 以 更 好 地 
提高 检索 效果 和 用 户 使 用 体验 ,减少 用 户 无 谓 的 点 击 时 间 。 从 另 一 个 角度 而 言 , 识 别 出 
来 的 相似 网 页 也 有 一 定 的 作用 。 当 某 网 页 不 能 访问 时 ,可 以 向 用 户 提供 相似 网 页 的 地 
址 ,获取 信息 。 

对 于 网 络 疏 虫 而 言 , 可 以 忽略 掉 相 似 网 页 的 外 向 链接 ,减少 无 用 的 抓 取 ,提高 网 络 带宽 
的 利用 率 。 在 识别 相似 网 页 的 基础 之 上 ,还 可 以 发 现 镜像 网 站 ,通过 去 除 镜像 网 站 ,可 以 减 
少 搜索 引擎 抓 取 .索引 和 存储 的 开销 。 

通过 引入 专业 领域 知识 ,相似 性 计算 还 可 以 更 好 地 找 出 专 有 领域 的 相似 网 页 。 这 些 知 
识 可 以 大 大 提高 主题 抓 取 疏 虫 获取 专 有 领域 网 页 集合 的 效率 。 

相似 网 页 的 识别 还 可 以 用 于 信息 抽取 。 通 过 聚集 相似 网 页 集合 ,可 以 从 中 学 习 和 挖掘 
这 类 网 页 的 共有 模板 ,再 自动 生成 模板 ,从 无 结构 的 网 页 信息 中 挖掘 出 有 结构 的 网 页 信息 。 
例如 提取 IMDB(Internet Movie Database) 上 的 电影 网 页 ,或 者 提取 淘宝 上 的 关于 产品 介绍 
的 网 页 。 

与 文本 相似 算法 类 似 , 相 似 网 页 识别 可 以 应 用 于 网 络 上 的 抄袭 复制 识别 等 ,用 于 保护 网 
络 上 的 知识 产权 。 

1. 研究 现状 

目前 针对 相似 网 页 识别 技术 的 研究 比较 广泛 ,国内 外 相关 的 识别 算法 较 多 。 好 的 相似 
网 页 识别 技术 能 够 使 人 们 更 好 、 更 高 效 地 使 用 互联 网 上 丰富 的 信息 资源 。 目 前 已 有 一 些 识 
别 算法 已 经 投入 使 用 ,取得 了 不 错 的 效果 .给 人 们 带 来 了 便利 。 其 中 比较 经 典 的 有 Broder 
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等 提出 的 DSC 算法 .SS-DSC 算法 以 及 Charikar 提出 的 Simhash 算法 等 。 它 们 都 具有 各 自 
的 特点 和 优点 ,但 是 同样 存在 不 足 之 处 ,对 这 些 相 似 网 页 识别 算法 的 学 习 、 研 究 、 分 析 和 改进 
是 一 个 值得 探讨 的 课题 。 如 基于 单词 序列 的 DSC 算法 ,该 算法 使 用 连续 的 单词 序列 表征 一 
篇 网 页 ,考虑 了 单词 之 间 的 相对 位 置信 息 ,但 是 并 未 融入 单词 的 相对 词义 、 词 频 以 及 网 页 结 
构 特 点 等 ,而 且 基 于 单词 的 序列 导致 大 量 序列 集 的 产生 ,在 计算 和 存储 方面 都 带 来 了 不 利 影 
响 。 另 外 ,当前 诸多 算法 各 有 优点 ,而 这 些 优点 的 有 机 结合 将 是 一 个 值得 研究 的 方向 ,追求 
强 强 联 合 , 发 挥 共同 的 优势 .避免 各 自 的 缺点 。 如 Simhash 算法 中 出 色 的 文档 指纹 思想 就 
可 以 与 DSC 算法 中 的 单词 序列 相 结合 。 

文本 相似 性 计算 是 相似 网 页 识别 中 的 关键 一 环 。 文 本 相似 性 计算 是 自然 语言 处 理 、 
Web 检索 文本 聚 类 及 文本 分 类 研究 中 一 个 课题 。 对 文本 相似 性 计算 的 研究 可 以 分 为 两 
个 方向 : 语法 相似 性 和 语义 相似 性 。 语 义 相似 性 计算 的 研究 涉及 到 自然 语言 理解 ,目前 
还 没有 比较 好 的 处 理 方法 ,是 研究 上 的 一 个 待 突破 点 。 从 语法 出 发 计算 文本 相似 性 有 
很 多 方法 ,主要 分 为 两 大 类 : 一 类 是 基于 字符 串 比较 的 方法 ,字符 串 可 以 基于 不 同 的 粒 
JE; 另 一 类 是 基于 词 频 统计 的 方法 ,在 向 量 空间 模型 上 ,通过 降 维 、 计 算 距 离 等 度量 相 
似 性 。 

国际 上 对 相似 文档 识别 算法 的 研究 最 初 是 针对 大 型 文件 系统 的 ,后 来 又 被 拓展 应 用 于 
数字 化 图 书馆 和 搜索 引擎 系统 。 美 国 Arizona 大 学 的 研究 人 员 采 用 计算 文档 重生 程度 的 方 
法 发 现 一 个 大 型 文件 系统 中 的 相似 文本 。 作 为 斯 坦 福 大 学 数字 化 图 书馆 项 目的 一 部 分 ,NN. 
Shivakumar 等 人 研制 了 SCAM 原型 系统 ,用 于 发 现 相似 的 数字 化 文档 。 后 来 Shivakumar 
和 Garca-Molina 在 SCAM 的 基础 上 ,提出 了 一 种 全 文 分 段 签名 的 相似 网 页 识别 算法 ,并 将 
此 用 于 Google 系统 。 现 在 ,世界 上 成 功 的 搜索 引擎 一 般 都 有 一 套 自己 的 相似 网 页 识别 算 
法 ,并 不 断 进 行 改善 。 

Broder 提出 了 一 种 有 效 识 别 文本 相似 的 方法 ,并 将 这 种 方法 用 于 AltaVista 搜集 的 互 
联网 上 的 所 有 网 页 。 作 者 首先 相对 于 URL, 定 义 了 与 位 置 无 关 的 URN 作为 网 上 所 有 资源 
的 标识 符 。 然 后 定义 了 相似 度 和 包含 度 , 识 别 了 所 有 相似 网 页 对 ,并 建立 了 所 有 相似 网 页 
类 。 并 且 将 结果 用 于 “失物 招领 "Lost and Found) 服 务 、 网 页 搜索 结果 的 过 滤 、 广 泛 分 布 的 
镜像 文件 的 更 新 和 违法 知识 产权 的 简 窃 行为 的 检测 等 应 用 。 

后 来 对 SCAM 系统 的 相似 文本 检测 算法 做 了 进一步 改进 ,并 应 用 于 斯 坦 福 大 学 开发 的 
Google 搜索 引擎 。 有 文献 提出 了 如 何 利 用 重复 文本 集合 、 超 文本 网 页 集 来 提高 搜索 引擎 抓 
取 器 、 网 页 文档 馆 和 网 页 排名 函数 等 应 用 的 效果 。 另 外 有 文献 首先 定义 了 相似 网 页 集 的 概 
念 ,并 提出 了 一 种 有 效 的 识别 相似 网 页 集 的 算法 ,这 是 一 种 搜索 最 优 子 图 算法 ,对 于 处 理 大 
量 网 页 十 分 有 效 。 用 Google 搜索 到 25 000 000 个 网 页 , 约 150GB 的 数据 集 进行 实验 。 使 
用 了 不 同 参 数 的 相似 网 页 识别 查 重 算法 ,得 出 的 结论 是 25 000 000 个 网 页 中 有 36964876 
的 网 页 重复 。 

王建 勇 利 用 文档 的 向 量 空间 表示 ,为 基于 关键 词 匹配 的 搜索 引擎 提出 了 5 种 相似 网 页 
识别 算法 ,并 利用 天 网 系统 对 这 5 种 算法 进行 了 实际 评测 。 另 外 还 将 它们 与 现 有 的 方法 进 
行 对 比分 析 。 实 际 评测 以 及 与 现 有 方法 进行 对 比分 析 后 .表明 这 些 方法 是 非常 成 功 的 ,能 够 
以 极 小 的 时 间 复 杂 度 和 空间 复杂 度 获取 较 高 的 查 全 率 , 同 时 保持 了 很 高 的 查 准 率 。 该 相似 
网 页 识别 算法 已 经 成 功 运 用 于 消除 天 网 搜索 引擎 系统 的 相似 网 页 ,同时 它们 也 可 广泛 应 用 


于 数字 化 图 书馆 的 搭建 。 

Zhangyi 针对 Web Application 的 需求 ,设计 了 一 种 网 页 预 处 理 的 框架 和 方法 。 其 预 处 
理 包括 三 个 方面 : 网 页 净化 ,网 页 去 重 和 网 页 整合 ,并 最 后 将 网 页 转化 为 一 种 通用 的 
DocView 格式 。 算 法 首先 对 网 页 进行 标签 树 构造 ,然后 对 标签 树 中 的 结 点 进行 裁剪 以 达到 
净化 目的 。 算 法 针对 主题 网 页 .目录 型 网 页 和 图 片 网 页 的 不 同 特征 ,采用 不 同 的 净化 方法 。 
该 方法 已 经 应 用 于 天 网 搜索 引擎 的 网 页 去 重 和 自动 分 类 ,天 网 搜索 引擎 已 经 采用 了 这 种 预 
处 理 的 框架 。 

Charika 的 Simhash 算法 蕴涵 了 更 深 的 理论 背景 ,主要 采用 的 是 网 页 指纹 识别 技术 , 即 
为 每 一 个 网 页 生成 一 个 指纹 ,网 页 不 同 , 则 指纹 不 同 , 但 另 一 个 更 重要 的 属性 是 网 页 越 相 似 ， 
则 指纹 越 相 似 , 这 也 是 该 算法 的 核心 之 一 。 要 获得 一 个 网 页 的 指纹 信息 ,首先 要 从 网 页 中 抽 
取 一 些 带 权重 的 特征 集 , 通 过 这 些 特征 集 的 释 加 计算 得 到 该 网 页 的 指纹 。 

DSC 算法 思想 则 是 通过 对 网 页 文本 信息 的 处 理 , 得 到 K 个 连续 的 单词 ,这 些 连续 的 单 
词 构成 一 个 单词 序列 ,然后 网 页 就 由 一 个 个 单词 序列 的 集合 来 表征 。 所 有 的 网 页 单词 序列 
集合 最 后 采用 一 种 类 似 于 倒 排 索引 方式 的 倒 排 表 存储 ,如 二 单词 序列 ,文档 ID 之 以 表示 某 
个 单词 序列 出 现在 网 页 文档 中 。 如 果 两 个 网 页 非常 相似 , 则 网 页 中 很 可 能 会 有 公共 的 单词 

序列 ,公共 的 单词 序列 越 多 , 则 网 页 相似 度 越 大 ,从 而 作为 两 个 网 页 相似 判定 的 依据 。 为 了 
提高 该 算法 的 速度 ,Broder 等 又 提出 了 对 该 算法 的 一 些 改进 ,采用 DSC-SS 算法 。 这 样 大 大 
减少 了 查找 相似 网 页 的 时 间 和 存储 空间 ,但 同时 也 降低 了 对 某 些 内 容 短小 文本 的 识别 精度 ， 
因为 内 容 短小 的 网 页 本 身 只 含有 少量 的 单词 序列 ,再 从 这 些 少量 的 单词 序列 中 提取 超大 单 
词 序列 就 更 少 了 。 

Google 采用 的 算法 是 通过 将 网 页 内 容 的 每 一 个 Token 分 配 到 一 个 列表 中 去 ,分配 法 则 
是 获得 每 个 Token 的 哈 希 值 , 然 后 根据 哈 希 值 决定 分 配 到 哪 一 个 列表 ,最 后 网 页 由 多 个 这 
样 的 列表 组 成 ,最 后 对 每 个 列表 计算 其 指纹 ,如 果 两 个 文档 中 有 任何 一 个 指纹 相似 则 判定 这 
两 个 文档 相似 。 

另外 还 有 针对 “词组 级 重复 ”的 算法 。 有 些 网 站 为 了 吸引 大 量 的 搜索 引擎 用 户 访问 ,而 
将 网 页 内 大 量 的 符合 语法 规则 的 语句 或 短语 进行 动态 组 合 ,这 种 组 合 可 以 由 程序 自动 生成 。 
如 此 生成 的 大 量 网 页 也 会 被 搜索 引擎 收录 到 ,从 而 诱导 搜索 引擎 用 户 通过 检索 结果 点 击 该 
网 站 。 针 对 这 种 现象 的 短语 级 相似 网 页 识别 技术 则 可 以 避免 搜索 引擎 疏 取 程序 落 入 这 种 
圈套 。 

目前 相似 网 页 识别 算法 可 以 分 为 以 下 几 个 主要 研究 方向 : 基于 内 容 的 相似 网 页 识别 、 
基于 链接 的 相似 网 页 识别 .基于 链接 和 内 容 的 相似 网 页 识别 。 其 中 基于 链接 的 相似 网 页 识 
别 不 够 成 熟 ,主流 的 是 基于 内 容 的 相似 网 页 识别 。 

2. 主要 算法 

从 对 相似 网 页 处 理 的 细 分 粒度 看 ,相似 网 页 识别 算法 可 以 分 为 三 类 : 以 单词 为 最 小 单 
位 ; 以 词组 或 句子 为 最 小 单位 和 以 整 篇 文档 为 最 小 单位 。 其 中 ,粒度 越 小 ,计算 越 准确 , 速 
度 相对 较 快 ; 粒度 越 大 ,计算 越 快 ,精确 度 相对 较 低 。 

从 相似 网 页 识别 所 利用 的 信息 看 .相似 网 页 识别 算法 可 以 分 为 三 类 : 基于 文本 内 容 的 ， 
基于 文本 内 容 和 链接 的 以 及 基于 文本 内 容 、 链 接 和 URL 的 。 

目前 ,相似 网 页 识别 算法 主要 是 基于 网 页 文本 内 容 的 ,基于 链接 关系 的 算法 尚未 成 熟 。 
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原理 及 应 用 (第 二 版 ) 


1) DSC 和 DSC-SS 算法 

DSC(Digital Syntactic Clustering) 及 其 改进 DSC-SS 两 种 算法 由 Broder 等 在 1997 年 
提出 。DSC 算法 是 基于 单词 序列 的 ,一 篇 文档 由 w 个 单词 序列 组 成 ,再 根据 相关 的 过 滤 
策略 对 单词 序列 进行 选择 保留 。 所 谓 的 单词 序列 与 自然 语言 处 理 领 域 中 定义 的 
N-GRAM 的 概念 有 些 类 似 , 就 是 一 段 连续 出 现 的 具有 固定 长 度 为 N 的 单词 串 , 单 词 序 列 
与 N-GRAM 这 两 者 的 不 同 之 处 在 于 DSC 算法 中 相同 的 序列 会 被 合并 为 同一 个 序列 ,而 
N-GRAM 中 并 没有 这 种 合并 的 过 程 。 单 词 序列 类 似 于 文档 的 一 个 特征 ,单词 序列 的 集合 
就 构成 了 文档 特征 集 。DSC 算法 忽略 了 网 页 的 标签 、 网 页 的 格式 及 字母 大 小 写 等 细节 。 
假设 A 为 一 篇 文档 ,定义 S(A,w) 为 文档 A 的 单词 序列 集合 ,w 表示 单词 序列 的 固定 
长 度 。 

定义 文档 A = (a, rose, is, a, rose, is. a) ,设置 w = 4; 则 文档 A 的 单词 序列 集合 

S(A,w) = {(a,rose,is,a), (rose,is,a,rose),(is,a,rose,is),(a,rose,is,a)}; (9.2) 
DSC 算法 对 于 多 次 出 现 的 单词 序列 在 SCA,w) 中 只 记录 一 次 以 提高 效率 。 因 此 
SCA w) = {(a,rose,is,a), (rose,is,a,rose), (is,a,rose,is)}; 

对 于 两 篇 网 页 文档 A 和 B 的 相似 度 , 采 用 0 一 1 之 间 的 数值 量化 表示 , 当 该 数值 越 接 近 
1 时 ,两 篇 网 页 文档 越 相 似 。 

网 页 A 与 网 页 B. 的 相似 性 度量 r(A,B) 定 义 如 下 : 
| SCA w) N S(B,w) | 


PAD — T$CA uw) US Bro) | is 
|X| 表 示 集 合 X 中 的 元 素 个 数 。 
网 页 A 在 网 页 B 的 包含 度 c(A,B) 定 义 如 下 : 

A.B) 2 LS(Asw) N S(Bsw) | "-— 


| S(A,w) | 

因此 ,r(A,B) 的 数值 在 0—1 之 间 , 且 (4A,A) 的 值 为 1。 需要 指出 的 是 当 r(A,B)=1 
时 ,也 只 能 表明 B 是 A 的 任意 排列 中 的 一 个 ,如 A= (aycyeyb,a),B 王 (ebaycya), 设 也 一 
2,0] (A,B) = 1; 另外 需要 指出 的 一 点 是 (4A,B) 不 具有 传递 性 ,如 Al 与 A2 相似 ,A2 与 
A3 相似 ,…,A99 与 A100 相似 ,不 能 够 推出 Al 与 A100 相似 ,也 许 它们 已 经 一 点 都 不 相同 
T. DSC 算法 中 单词 序列 长 度 即 w 的 选择 是 一 个 比较 重要 的 问题 , 当 w 取得 过 长 时 , 文 
档 中 很 小 的 随机 变化 就 会 带 来 巨大 的 影响 ,而 w 过 小 时 ,更 容易 将 一 些 不 相关 的 文档 赋 
予 更 大 的 相似 性 ,根据 实际 情况 的 不 同 ,Broder 推荐 w 一 般 介 于 3 一 10 之 间 。 为 了 获得 
更 快 的 速度 ,DSC 算法 采用 倒 排 索引 的 方法 ,建立 排序 的 二 序列 ,ID 二 列表 和 二 ID,ID, 共 
有 序列 数 之 。 但 是 经 过 选择 保留 后 的 序列 数量 依然 不 少 ,比较 次 数 太 多 、 效 率 仍 不 够 
理想 。 

DSC-SS 算法 是 对 DSC 算法 的 一 种 改进 。DSC-SS 算法 在 序列 之 上 再 进行 一 个 提取 大 
序列 的 过 程 , 即 把 几 个 序列 合并 为 一 个 更 大 的 序列 ,这 样 在 一 定 程度 上 减少 了 序列 的 个 数 ， 
因此 减低 了 比较 的 次 数 。 如 果 大 序列 的 大 小 选择 合适 ,两 个 相似 文档 会 有 很 大 的 概率 至 少 
拥有 一 个 相同 的 大 序列 。DSC-SS 不 仅 减 少 了 比较 次 数 ,同样 还 能 减少 对 序列 的 存储 ,但 是 
对 于 一 些小 文档 ,由 于 这 些小 文档 本 身 的 序列 数量 就 不 多 ,再 进行 合并 ,会 导致 准确 度 的 
下 降 。 


2) I-Match 算法 

I-Match 算法 同样 是 对 DSC 算法 的 一 种 改进 ,但 不 同 于 DSC-SS 算法 , 它 从 过 滤 单 词 序 
列 而 不 是 从 减少 比较 次 数 这 方面 下 手 , 尽 量 抛弃 那些 重复 次 数 较 多 .过 于 普通 的 单词 序列 。 
这 种 选择 抛弃 策略 与 经 典 的 tf-idf 算法 中 的 idf 概念 有 些 相似 。 将 集合 中 的 文档 生成 单词 
序列 后 ,计算 每 个 单词 序列 的 出 现 次 数 , 和 有 该 单词 序列 出 现 的 文档 个 数 , 依 据 每 个 单词 序 
列 的 idf 值 选 择 抛弃 ,再 对 剩 下 的 单词 序列 进行 哈 希 运算 ,获得 一 个 整 型 喻 希 值 ,通过 对 这 
些 整 型 值 的 比较 判断 两 篇 文档 是 否 相 似 。 

I-Match 算法 并 不 依赖 于 严格 的 语法 分 析 , 而 是 基于 集合 统计 识别 哪些 单词 序列 将 被 
选 为 进行 比较 的 对 象 。 

对 于 每 个 单词 序列 的 idf 值 , 定 义 为 上 — log N/0 ,其 中 NN 是 集合 文档 总 数 ,n 是 包含 
单词 序列 的 文档 数目 。 通 过 idf 值 过 滤 后 的 单词 序列 能 更 好 地 描述 一 篇 文档 。 

计算 idf 值 的 方法 有 两 种 : 第 一 种 方法 就 是 在 识别 开始 之 前 ,使 用 训练 集 计算 每 个 单词 
序列 的 idf 值 。 因 为 当 集合 大 小 改变 时 ,idf 值 只 会 轻微 改变 ,所 以 这 是 一 个 可 以 接受 的 方 
R: 第 二 种 方法 是 把 I-Match 算法 分 成 两 个 步骤 ,第 一 步 先 整体 计算 所 有 单词 序列 的 idf 
值 , 第 二 步 再 利用 I-Match 算法 查找 重复 文档 ,虽然 这 种 方法 会 增加 实际 的 运行 时 间 , 但 是 
其 理论 复杂 度 仍 保持 不 变 。 

I-Match 算法 的 过 程 描述 如 下 : 

1. 获 取 一 篇 文档 ; 

2. 除 去 文档 的 格式 标签 ,将 其 解析 为 一 个 单词 序列 集 ; 

3. 依 据 idt 值 选择 抛弃 ,保留 下 重要 的 单词 序列 ; 

4. 将 选择 的 相关 单词 序列 插入 到 以 Unicode 升序 排列 存储 且 不 重复 的 树 结构 中 ; 

5. 遍 历 整个 单词 序列 树 ,将 出 现 的 每 一 个 单词 序列 进行 哈 希 签名 . 当 遍 历 完 成 后 , 就 生成 一 个 

<DocId, 哈 希 签名 > 元 组 ; 

6. 将 元 组 插入 到 以 哈 希 签名 做 关键 词 存 储 的 数据 结构 中 ; 

7. 如 果 签 名 值 出 现 冲突 ,那么 这 些 冲 突 的 文档 就 是 相似 的 . 

相 比 与 DSC-SS 算法 ,DSC-SS 算法 生成 k 个 大 单词 序列 来 描述 一 篇 文档 ,而 -Match 
算法 只 产生 一 个 ,由 于 & 是 一 个 常数 ,所 以 这 两 种 算法 复杂 度 在 理论 上 是 相同 的 。 

I-Match 算法 对 比 DSC-SS 算法 的 优势 不 在 于 时 间 效 率 上 的 提高 ,而 是 它 能 够 弥补 计算 
短文 档 时 不 够 理想 的 准确 率 。DSC-SS 算法 对 于 短文 档 不 能 提取 出 足够 数量 的 单词 序列 进 
行 相似 性 识别 ,因此 即使 这 些 短 文档 中 出 现 重 复 ,DSC-SS 算法 也 无 法 有 效 识 别 , 对 于 很 多 
文档 相似 识别 技术 的 具体 应 用 领域 ,忽略 短文 档 会 影响 算法 的 查 全 率 ,而 I- Match 的 提出 对 
这 一 问题 进行 了 有 效 补充 。 

3) 基于 全 文 分 段 签名 匹配 的 相似 网 页 识别 算法 

全 文 分 段 签 名 匹配 的 相似 网 页 识别 算法 是 把 一 篇 网 页 按照 一 定 的 原则 分 成 m 段 ,如 每 
n 行 作为 一 段 、 利 用 文本 的 自然 段 等 ,然后 对 每 一 段 进 行 签名 ,于 是 可 以 利用 m 个 签名 来 表 
示 一 篇 文档 。 对 于 给 定 的 两 篇 文档 ,如 果 它 们 的 mm 个 签名 中 存在 t 个 是 相同 的 , 则 认为 它们 
是 相似 网 页 。 

Shivakumar 和 Garca-Molina 提出 的 相似 网 页 识别 算法 就 是 一 种 全 文 分 段 签名 的 算 
法 ,采用 每 nn 行 作 为 一 段 的 分 段 方法 。 并 比较 了 参数 n 的 选择 对 于 识别 效果 的 影响 。 例 如 ， 
将 全 文 作为 一 整 段 、 每 四 行 作为 一 段 或 每 两 行 作为 一 段 等 。 
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假设 网 页 的 MD5 KEX m, 网 页 数 为 n, 则 全 文 分 段 签名 算法 的 空间 复杂 度 为 
OCmn) ,时 间 复 杂 度 为 Ol(mmnn)。 由 于 互联 网 上 存在 的 网 页 数量 过 于 庞大 ,这 样 的 时 间 空 
间 复 杂 度 不 能 很 好 地 满足 实际 应 用 需求 。 

该 算法 使 用 对 二 文档 标示 , 段 标示 ,指纹 过 三 元 组 排序 的 方法 避免 了 对 所 有 网 页 进行 两 
两 比较 ,使 算法 的 复杂 度 有 所 降低 ,但 是 程度 有 限 。 

4) 基于 向 量 空间 模型 的 相似 网 页 识别 算法 

向 量 空间 模型 (Vector Space Model,VSM) 是 由 Salton 等 人 于 20 世纪 60 年 代 提 出 的 ， 
并 成 功 地 运用 于 著名 的 Smart 文本 检索 系统 。 

使 用 向 量 空 间 模 型 表征 文本 时 , 先 抽取 具有 代表 性 的 特征 项 ,每 个 特征 项 具有 各 自 
的 权重 ,利用 向 量 描述 文本 ,再 依据 相似 性 的 计算 得 到 相似 性 关系 。 向 量 空间 模型 是 在 
信息 检索 领域 中 应 用 广泛 .效果 较 好 的 一 种 文本 表示 模型 。 在 传统 的 文本 复制 检测 中 基 
于 词 频 统 计 的 文本 相似 性 计算 就 使 用 了 基于 向 量 空间 模型 的 文本 表示 方法 和 相似 性 计 
算 方法 。 

VSM 的 特征 提取 是 从 自然 语言 形式 的 文本 中 提取 最 能 够 代表 全 文 的 特征 项 集合 。 如 
文本 中 字 的 集合 .词语 的 集合 .短语 的 集合 或 者 句子 的 集合 等 ,用 这 样 的 集合 代表 全 文 内 容 。 
对 于 中 文 , 是 由 字 组 成 词组 .由 词组 组 成 句子 ,再 由 句子 段落 及 篇 章 对 文本 进行 层次 性 表示 。 
向 量 空间 模型 通常 选取 词 作 为 其 特征 项 的 基本 单位 ,对 于 基于 短语 、 句 子 的 向 量 空间 模型 也 
曾 进行 过 尝试 ,在 文本 分 类 中 效果 表现 良好 。 

在 文本 自动 分 类 ,过滤 等 领域 ,特征 项 要 求 代表 性 强 , 特 征 项 集合 要 求 简明 扼要 。 传 统 
的 特征 项 选择 方法 有 文档 扩充 计量 法 、 频 次 法 、 信 息 增益 法 、 互 信息 法 、 期 望 交 又 录 法 、 词 频 
法 和 文本 证 据 权 法 等 ,它们 都 是 针对 文本 特征 项 维度 过 高 ,通过 降低 特征 空间 维度 提高 计算 
的 效率 和 准确 率 。 

VSM 的 概念 比较 简单 ,利用 向 量 空 间 中 的 向 量 运 算 简 化 对 文本 内 容 的 处 理 , 利 用 空间 
上 的 相似 性 来 表达 语义 的 相似 性 ,直观 易 懂 。 文 档 被 表示 为 文档 空间 的 向 量 ,通过 计算 向 量 
之 间 的 相似 性 度量 文档 间 的 相似 性 。 最 常用 的 相似 性 度量 方式 是 利用 夹 角 余 弦 距 离 。 

用 D Xo X Pi C Document ,上 表示 特征 项 (Term) ,特征 项 是 指出 现在 文档 D 中 且 能 够 
代表 该 文档 内 容 的 基本 语言 单位 ,主要 是 由 词 或 短语 构成 ,文本 可 以 用 特征 项 集 表示 为 
D stoot stn) ,其 中 如 是 特征 项 ,1 二 kn。 例 如 一 篇 文档 中 有 a、b、c、d 四 个 特征 项 ,那么 
该 篇 文档 可 以 表示 为 D(a,b,c,d)。 对 于 含有 nn 个 特征 项 的 文本 而 言 ,通常 会 给 每 个 特征 项 
赋予 一 定 的 权重 表示 其 重要 程度 。 即 D=D(<ti wD, Ktw, Ltn W>), M 
H D=Dlw rws w) HERO CA D 的 向 量 表示 。 其 中 vw 是 特征 项 ti 的 权重 ,1 二 kn。 
在 上 述 例子 中 ,假设 a、b、c、d 的 权重 分 别 为 30、20、20、10, 那 么 该 文本 的 向 量 表示 为 
D(30,20,20,10)。 在 向 量 空间 模型 中 ,两 个 文本 D1 和 D2 之 间 的 相似 度 Sim(D1,D2) 常 
用 向 量 夹 角 余 弦 值 表示 ,计算 公式 为 : 


Sim(D1.D2) = cosb £l (9.5) 


其 中 ,Wi 、Ws 分 别 表示 文本 D1 和 D2 第 个 特征 项 的 权 值 ,1<k<N。 

数学 上 ,n 维 向 量 是 V{v1 ,v2,v3,… vn) 

MB 

|V| = sqrtCvl * v14-v2 * v2+ ---- vn * vn) (9.6) 
两 个 向 量 的 点 积 
m* n = nl *ml+n2 * m2 nn * mn (9. 7) 
相似 度 = On * /CIml * InD 

物理 意义 就 是 两 向 量 的 空间 夹 角 余 弦 值 。 

向 量 空间 模型 可 以 实现 文档 的 自动 分 类 和 对 查询 结果 的 相似 性 排序 ,能 够 有 效 地 提高 
检索 效率 ,缺点 是 相似 性 计算 量 大 , 当 有 新 的 文档 加 入 时 , 则 必须 重新 计算 词 的 权重 。 

5) 基于 特征 串 的 相似 网 页 识别 算法 

哈工大 于 2003 年 提出 一 种 基于 特征 索引 的 相似 网 页 识别 算法 ,其 中 提取 网 页 特征 码 是 
比较 重要 的 环节 ,网 页 特征 码 必须 能 够 区 分 出 完全 相同 的 网 页 和 不 同 或 相似 网 页 ,普通 的 关 
键 词 技术 是 很 难 做 到 这 一 点 的 ,因此 特征 码 最 好 取 网 页 中 一 个 长 度 固定 的 词 串 。 但 由 于 相 
同 的 网 页 内 容 中 的 版 权 和 导航 信息 有 可 能 并 不 同 , 因 为 这 些 信息 的 干扰 ,很 难 从 网 页 的 开始 
或 者 中 间 的 某 个 固定 的 位 置 抽 取 特 征 码 。 通 过 网 页 分 析 发 现 标点 符号 尤其 是 句号 很 少 在 导 
航 类 信息 中 出 现 , 另 外 导航 信息 一 般 以 超 链接 的 形式 出 现在 网 页 中 。 利 用 这 两 个 特点 ,在 提 
取 特 征 码 时 可 以 尽量 将 导航 信息 等 去 掉 。 将 句号 作为 一 个 提取 的 分 隔 符 ,在 句号 两 边 提取 
固定 长 度 的 两 个 词 串 从 而 构成 网 页 的 特征 码 。 在 名 号 两 边 提取 的 一 个 好 处 就 是 句号 两 边 的 
字 很 难 构成 一 个 词 , 更 有 利于 保持 特征 码 的 唯一 性 。 

特征 码 提取 中 国定 长 度 的 选择 对 提取 效果 影响 较 大 ,长度 过 长 不 利于 存储 和 计算 , 带 来 
的 开销 较 大 ,长 度 太 短 将 会 降低 特征 码 的 区 分 能 力 。 一 般 地 ,可 以 将 固定 长 度 设置 为 10, 即 
在 句号 两 边 各 选择 五 个 汉字 作为 特征 码 ,对 于 不 足 5 个 汉字 的 情况 ,以 特定 的 字符 进行 补 
位 。 按 照 信息 论 中 的 多 元 文法 的 定义 这 个 特征 码 相 当 于 一 个 10 阶 的 文法 ,按照 6763 个 汉 
字 计 算 ,这 个 特征 码 重 复 的 概率 大 约 为 6763 的 十 次 方 分 之 一 ,因此 保证 了 这 个 特征 码 在 不 
同 网 页 中 几乎 是 不 可 能 重复 的 。 从 另 一 个 方面 来 说 ,如 果 把 长 度 为 工 的 特征 码 看 成 一 个 
二 进 制 , 即 把 一 个 网 页 映射 到 一 些 二 进 制 数字 构成 的 空间 中 ,而 这 个 空间 的 大 小 为 6763 
的 十 次 震 , 在 这 样 一 个 大 的 空间 里 ,不 同 网 页 出 现 相 同 特征 码 的 可 能 性 极 小 。 通 过 这 种 
映射 可 把 一 个 复杂 的 计算 网 页 相似 度 来 判断 网 页 是 否 相 同 的 问题 变换 为 利用 二 进 制 数 
的 比较 来 判断 网 页 内 容 是 否 相 同 的 问题 ,从 而 克服 了 因为 相似 度 域 值 不 合适 而 产生 的 
DB. 

在 特征 码 提取 完成 后 ,使 用 平衡 多 路 查找 树 有 效 地 组 织 存储 这 些 特征 码 。 生 成 平衡 
多 路 查找 树 的 过 程 就 是 对 特征 码 的 插入 过 程 。 插 入 特征 码 键 值 时 ,首先 查找 待 插入 的 结 
点 ,然后 插入 对 应 的 位 置 , 如 果 待 插入 的 特征 码 键 值 与 树 中 已 经 存在 的 特征 码 的 键 值 相 
同 ,说 明 这 个 键 值 特征 码 所 代表 的 网 页 与 结 点 中 键 值 所 代表 的 网 页 重复 ,此 时 需要 记录 
下 这 对 网 页 。 如 果 平 衡 多 路 查找 树 中 未 发 生 键 值 冲突 ,就 将 待 插入 键 值 特征 码 插入 到 平 
衡 多 路 查找 树 中 。 这 样 平衡 多 路 查找 树 中 的 特征 码 键 值 都 不 存在 重复 冲突 的 情况 ,从 而 
不 会 重复 索引 相同 的 网 页 。 所 有 特征 码 都 被 插入 完毕 后 , 即 完 成 对 相似 网 页 的 记录 
操作 。 
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该 方法 在 小 规模 数据 集 上 的 查 准 率 和 效率 都 比较 理想 ,并 且 简 单 高效, 从 工程 角度 上 
看 在 大 规模 相似 网 页 识别 上 应 该 有 广阔 的 应 用 前 景 。 
6) Simhash 相似 网 页 识别 算法 
Simhash 算法 是 由 Charikar 等 人 提出 的 比较 经 典 的 相似 文本 识别 算法 。Simhash 算法 
基于 文档 特征 及 特征 权重 ,首先 维护 一 个 初始 值 为 0 的 了 维 向 量 ,然后 遍历 特征 集中 的 每 个 
特征 ,使 用 Rabin 哈 希 函数 对 每 一 个 特征 生成 一 个 f£ 位 的 喻 希 值 ,遍历 f 位 喻 希 值 中 的 每 
一 位 ,如 果 哈 希 值 中 第 & 位 的 值 为 0, 则 将 被 初始 化 后 的 了 维 向 量 中 的 第 & 维 减 去 该 特征 对 
应 的 权重 值 , 若 哈 希 值 第 位 为 1, 则 加 上 该 特征 对 应 的 权重 值 。 当 遍历 完 所 有 的 特征 后 ， 
初始 各 位 为 0 的 了 维 向 量 中 各 维 的 值 已 经 发 生 了 变化 ,其 中 有 正 有 负 , 对 于 负 值 的 位 以 0 E 
换 , 正 值 的 位 以 1 替换, 这样 将 形成 一 个 了 位 的 二 进 制 串 , 该 串 就 定义 为 该 文档 的 特征 指纹 ， 
Simhash 算法 的 描述 如 下 : 
初始 化 荆 维 向 量 为 0; 同时 初始 化 王位 的 二 进 制 数 s 各 位 为 0; 
遍历 特征 项 集 , 用 哈 希 函数 对 每 一 个 特征 生成 一 个 王位 的 数字 签名 b. 
对 i=1 到 f: 
9 若 b 的 第 i 位 为 1, 则 VvV 的 第 i 个 元 素 加 上 该 特征 的 权重 值 ; 
e 否则 ,V 的 第 i 个 元 素 减 去 该 特征 的 权重 值 . 
WME v 的 第 i 个 元 素 大 于 0, 则 s 的 第 并 位 为 1, 否则 为 0; 
输出 s 作为 特征 指纹 . 


算法 过 程 如 图 9. 10 所 示 。 


Hasing{ Vi, Wi}:init Vi,Si; 
Simhash 指纹 具有 两 个 非常 重要 的 特点 : 一 是 一 个 文档 T 
由 一 个 指纹 表征 ,该 指纹 为 文档 特征 集 的 哈 希 值 ; 二 是 相似 文 010101010100100 
档 有 着 相似 的 指纹 。 
Simhash 算法 将 高 维 向 量 用 较 低 维度 的 签名 表示 ,衡量 两 FE 
篇 文档 内 容 的 相似 度 , 通 过 计算 指纹 间 的 海 明 距离 , 海 明 距离 IREZ) VW; 
可 以 用 来 衡量 原始 向 量 间 的 夹 角 。 "- ER 
假设 文档 A 的 指纹 为 f,(A) ,文档 B 的 指纹 为 f,(B), 则 IfVi<0) S20; 


A 与 B 的 相似 度 用 f,(A) 与 f,(B) 之 间 的 海 明 距离 表示 , 即 图 9.10 Simhash 算法 过 程 
f(A) 与 f,(B) 二 进 制 位 中 不 相同 的 位 的 个 数 ,如 果 海 明 距离 
越 小 ,文档 A 与 B 的 相似 性 越 大 。 

从 空间 复杂 度 看 ,每 一 个 网 页 文档 通过 Simhash 计算 后 都 由 一 个 64 位 的 二 进 制 哈 希 值 
代替 ,假设 处 理 的 网 页 文档 数位 N, 则 总 共 的 空间 消耗 为 8NB, 这 个 存储 空间 是 相对 较 低 
的 。 对 于 计算 每 篇 网 页 文档 的 Simhash 数值 ,假设 文档 词 数 为 n, 则 时 间 复 杂 度 为 O(n)。 
判断 两 个 文档 是 否 相 似 , 则 看 它们 喻 希 值 的 海 明 距离 是 否 小 于 等 于 3。 对 于 一 篇 给 定 文档 
DD, 查 找 其 相似 文档 ,就 是 找 出 哈 希 值 相差 3 位 以 内 的 文档 ,最 简单 的 方法 就 是 对 于 一 个 给 
定 的 文档 的 哈 希 值 S, 取 C=41 644 个 与 S 相差 3 位 或 以 内 的 哈 希 值 , 若 这 些 哈 希 值 有 对 应 
的 文档 , 则 为 D 的 相似 文档 。 

7) 基于 Web 链接 结构 的 相似 网 页 识别 算法 

Web 网 页 与 文本 的 区 别 之 一 就 是 拥有 自身 的 格式 特征 , 除 此 之 外 更 重要 的 一 点 是 具有 
文本 所 没有 的 链接 结构 。 因 此 ,如 何 挖掘 Web 网 页 之 间 的 链接 信息 作为 网 页 相似 性 的 度 
量 , 也 是 近年 来 的 研究 热点 之 一 。 


与 基于 文本 的 网 页 相似 性 识别 不 同 , 基 于 链接 的 网 页 相似 性 识别 考虑 的 不 是 网 页 内 容 
特征 ,而 是 网 页 之 间 的 相 邻 结 点 的 结构 信息 。 比 如 I(a) 表 示 指 向 网 页 a 的 相 邻 结 点 集合 ， 
O(a) 表 示 从 a 指出 的 相 邻 结 点 集合 。Sim(a,5) 表 示 网 页 a 与 网 页 2 的 相似 性 。 

如 图 9. 11 所 示 , 采 用 共同 邻居 的 方法 , 则 


Sim(a,.b) = | Ola) N OW) | = | Cd) | = 2 
如 图 9. 12 所 示 ,采用 共同 引用 的 方法 , 则 
Sim(a.b) = | KA f) I| || —2 
图 9.11 基于 链接 的 相似 性 度量 9.12 基于 链接 的 相似 性 度量 


这 两 种 方法 考虑 的 只 是 简单 的 一 层 邻 居 关 系 , 而 没有 利用 整个 网 络 图 结构 信息 ,因此 不 
能 很 好 地 作为 网 页 相似 性 度量 方法 ,而 且 对 于 Web 而 言 ,并 不 是 所 有 的 链接 都 是 同等 重 
要 的 。 

在 图 链接 关系 理论 的 基础 上 ,基于 这 样 的 直觉“ 如果 两 个 结 点 被 相似 的 结 点 引用 ,那么 
它们 也 是 相似 的 ”, 斯 坦 福 大 学 的 Glen Jew 和 Jennifer Widen 的 SimRank 算法 成 为 基于 链 
接 的 网 页 相似 性 度量 的 著名 方法 。 

SimRank 算法 采用 了 递归 的 定义 , 即 : 

对 于 相同 的 网 页 ,Sim(wu,u) = 1; 

X TR d ff Id 96. nA | IGO || EGO || = 0. Sim(u,v) = 0, 和 否则 


Y M Simi.» 


: _ (^ a€ IGOB€ IG). 
Sana = C en TER 69.8) 


这 里 C 是 一 个 介 于 0 和 1 之 间 的 常数 ,迭代 计算 从 初始 条 件 Simus u) — 1. Simu, v) =0 
开始 ,u KEF vo 

基于 SimRank 和 PageRank, 香 港 中 文大 学 的 Zhangjiang Lin 等 人 提出 了 一 种 新 的 基 
于 链接 的 网 页 相似 性 识别 算法 PageSim 。 

PageSim 的 提出 是 为 了 解决 SimRank 不 能 计算 任意 两 个 网 页 之 间 相 似 性 识别 的 问题 ， 
并 且 采 用 PageRank 分 值 传播 的 策略 ,对 于 不 同 的 链接 会 不 同 对 待 。PageSim 模型 更 加 适 
合 于 网 页 相似 性 的 计算 , 它 是 高 效 的 、 可 扩展 的 稳定 的 并 且 鲁 棒 的 计算 模型 。PageSim 的 
思想 是 使 用 PageRank 值 度量 一 个 网 页 权威 性 ,之 后 每 一 个 网 页 将 其 自身 的 相似 度 值 传播 
给 它 的 相 邻 结 点 ,每 一 个 网 页 也 同时 将 其 他 的 网 页 相似 性 值 


传播 给 邻居 。 当 相似 度 值 传播 结束 后 ,每 一 个 网 页 得 到 的 就 Go) 
是 一 个 相似 度 值 数组 。 
举 个 简单 的 例子 ,如 图 9. 13 所 示 , 开 始 时 分 别 为 a、b、c Cao) (hs) 


三 个 结 点 赋 PageRank ffi. PRC4) —100. PRO) —55. PRO = 


102。 计 算 时 ,每 个 网 页 把 它 的 相似 度 分 值 的 80%% 平 均 地 传播 ”图 9 13 PageSim 计算 
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给 其 邻居 。 假 定 第 一 次 传播 从 a 点 开始 ,a 将 其 相似 度 值 80 平均 传 给 5 和 c ,这样 5 和 c 都 
为 40, 接 下 来 6 再 把 它 的 8076 B 32 分 传 给 c.c 点 只 有 链接 到 a ,因此 这 轮 传播 结束 ,三 点 的 
相似 度 值 分 别 为 100、40 和 72。 同 样 的 从 5 和 c 出 发 开始 传播 ,最 后 每 一 个 网 页 都 会 得 到 一 
个 相似 度 分 值 向 量 SV ,按照 图 计算 ,最 后 得 到 : 
SV(a) = (100.35.82) 
SV(b) = (40,55,33) 
SV(c) = (72,44,102) 
任意 两 个 结 点 的 PageSim 分 值 取 两 个 结 点 SV 向 量 每 一 维 最 小 值 之 和 ,例如 w 和 4 之 
间 的 PageSim fy PS(a.5) = 40 十 35 十 33 = 108. 
如 果 两 个 网 页 之 间 有 更 高 的 PageSim 相似 度 分 值 , 则 它们 会 更 相似 。 
8) SIF 
1993 4E. Arizona 大 学 提出 了 SIF 工具 ,其 主要 应 用 是 在 大 型 文件 系统 中 查找 相似 文 
档 , 包 括 程 序 重用 信息 收集 ,文件 管理 ,复制 识别 ,数据 压缩 和 文件 同步 。 它 提出 了 相似 指 
纹 的 概念 ,利用 相似 指纹 表示 文本 和 计算 文本 相似 性 。 相 似 指纹 完成 了 对 文档 内 容 的 一 种 
压缩 ,在 通常 情况 下 ,使 得 相似 文本 的 指纹 差别 小 ,而 不 相似 文本 的 指纹 差别 大 。 
SIF 工具 进行 相似 度 计算 的 主要 过 程 如 下 : 先 提取 一 定 的 字符 串 作为 指纹”, 通过 哈 
希 运算 将 不 同 的 字符 串 映射 为 不 同 的 数值 ,再 比较 不 同文 档 的 数值 集合 ,如 果 代 表 两 篇 文档 
的 数值 组 合 中 相同 的 数字 超过 一 定 的 阅 值 , 则 判断 两 篇 文档 相似 。 这 样 ,“ 近 似 指 纹 ” 计 算 将 
字符 串 的 匹配 问题 转换 成 了 数值 比较 问题 。 
核心 的 处 理 过 程 是 以 50 个 字 节 (字符 ) 为 长 度 , 将 文件 划分 为 重生 的 一 个 个 子 串 ,然后 
计算 每 一 个 子 串 的 指纹 值 。 比 如 把 文本 标识 为 to…t, ,那么 第 一 个 50 字 节 的 字 串 的 指纹 
值 为 : 


Fi = (4 X P9 +t X P* 十 … 十 io)mod M (9. 9) 
这 里 P 和 M 为 常数 ,根据 霍 纳 法 则 ,优化 计算 多 项 式 , 即 : 
Fo = (px (CO X Op X f t2) 4-457) + ts)mod M (9. 10) 
而 在 计算 已 时 ,只 需要 加 上 最 后 一 个 参数 并 且 减 去 第 一 项 , 即 : 
F: = (p XFidta — tı X P*)mod M (9.11) 


总 之 ,计算 的 指纹 数 和 文本 的 字符 数 成 正比 ,而 与 指纹 的 大 小 无 关 。 有 很 多 方法 可 以 决 
定 挑选 哪些 指纹 ,最 简单 的 方式 是 选择 以 k 个 0 结尾 的 指纹 值 。 近 似 地 ,2* 个 字符 中 会 选 
出 一 个 指纹 。 将 已 设 为 一 个 素数 ,M 设 为 2”,k 设 为 8。 因 为 被 选 到 的 指纹 值 最 后 8 位 都 
是 0, 所 以 可 以 将 指纹 值 右 移 8 位 存储 以 节省 空间 。 如 果 系 统 中 的 文件 数量 非常 多 ,那么 可 
以 通过 使 用 更 大 的 指纹 值 (比如 2 或 22 ) 来 减少 指纹 冲突 的 几率 。 

虽然 通过 上 述 方法 选取 了 较为 稀 玻 的 指纹 值 , 但 这 个 问题 并 不 重要 ,因为 这 些 选取 的 指 
纹 已 经 足以 标识 文本 。 尤 其 在 不 相关 的 两 个 文件 中 出 现 相同 的 50 字 节 子 串 ,这 种 可 能 性 是 
相当 小 的 。 通 过 这 种 近似 选择 还 可 以 过 滤 掉 噪声 信息 。 如 果 两 个 文件 拥有 足够 数目 的 相同 
指纹 ,那么 在 一 定 程度 上 已 经 足以 证 明 两 个 文件 是 相似 的 。 

最 后 列举 了 两 种 检索 方法 : 从 多 个 中 找 与 一 个 相似 的 (All_One) 和 从 多 个 中 找 与 多 个 
相似 的 (All_All) 。 通 过 对 指纹 值 建 立 倒 排 索引 和 排序 等 技术 ,可 以 加 快 检索 的 速度 。 

“近似 指纹 ”在 以 后 的 文本 相似 度 检测 中 也 得 到 广泛 应 用 ,如 1996 年 提出 的 KOALA 


系统 和 Broder 提出 的 Shingle 系统 ,都 是 基于 近似 指纹 的 字符 串 匹 配 的 算法 进行 相似 度 检 
测 的 。 

这 些 文本 相似 度 算法 都 是 基于 语法 级 相似 (syntactic similarity) ,而 没有 考虑 到 语义 级 
相似 (semantic similarity) 。 换 言 之 ,对 于 相同 的 信息 使 用 不 同 的 词语 描述 ,从 语法 级 别 来 
看 ,它们 仍 是 不 相似 的 。 

9) SCAM 

Garcia, Molina 和 Shivakumar 等 人 又 提出 了 SCAM(Stanford Copy Analysis Method) 
原型 改进 COPS 系统 ,用 于 发 现 知识 产权 冲突 。SCAM 借鉴 了 信息 检索 技术 中 的 向 量 空间 
模型 ,使 用 基于 词 频 统计 的 方法 度量 文本 相似 性 。 后 来 Garcia、Molina 和 Shivakumar 等 人 
还 在 SCAM 的 基础 上 提出 了 dSCAM 模型 ,把 检测 范围 从 单个 注册 数据 库 扩展 到 分 布 式 数 
据 库 以 及 在 Web 上 探测 文本 复制 的 方法 。 

SCAM 方法 受到 了 信息 检索 技术 的 启示 。 它 首先 统计 文档 中 各 个 单词 出 现 的 次 数 , 然 
后 按照 信息 检索 中 常用 的 倒 排 索引 存储 法 (inverted index storage) 存 储 文档 与 词 频 信息 。 
最 后 ,SCAM 参照 向 量 空间 模型 提出 了 相对 频率 模型 (Relative Frequency Model, RFM)， 
用 以 度量 文档 相似 性 。 向 量 空间 模型 一 般 采 用 点 积 或 余弦 公式 度量 相似 性 。 而 相对 频率 模 
型 其 实 是 对 余弦 公式 进行 改进 ,试图 提高 文件 复制 检测 精度 。 令 D 表示 候选 文档 ,Q 表示 
待 检测 (或 者 查询 ) 文 档 ,F(D) 表 示 文 档 D 的 词 频 向 量 ,F(Q) 表 示 文 档 Q 的 词 频 向 量 ,a K 
示 各 词 的 权重 向 量 , 则 VSM 利用 余弦 公式 计算 的 相似 度 S,(D,Q) 为 : 


N 
XJF: DF; Q) 
i=1 


S,(D.,Q) (9.12) 


N N 
DaF D 3atFiciQ 
显然 ,SCD,Q)=SCQ,D)。RFM 首先 定义 了 一 个 靠近 集 (closeness set)c(D,Q), 用 于 
选取 文档 D 和 Q 中 出 现 频 度 相近 的 单词 。 即 cCD,Q) 包 含 的 单词 是 D 和 Q 中 都 有 的 单词 ， 
并 且 满足 如 下 公式 : 


N 
X eF: DF: (Q) 
i=l 


S,CD.Q) (9.13) 


x 
MaiFia»MjarFQ 
i=l i=l 


其 中 ,s*= 一 (2, 十 co) 是 一 个 用 户 可 调 的 参数 。 然 后 再 计算 D 对 Q 的 子 集 度 或 包含 度 
SubsetCD.Q). 


N 
XF: DF: Q) 
i=l 


S,CD.Q) (9.14) 


DFD) D FQ 
显然 ,D 对 Q 的 包含 度 与 Q@ 对 DD 的 包含 度 不 一 样 , 即 SubsetCD.Q) 7 Subset(Q. D). 
所 以 ,RFM 最 终 的 相似 度 SCD,Q) — max(SubsetCD.Q) ,Subset(Q,D)}。 如 果 SCD,Q)>1 
WS SCD.Q) —1. 采用 RFM 方法 可 以 更 好 地 检测 子 集 包含 式 复制 ,并 且 S 越 大 ,表示 对 两 
篇 文档 中 共有 单词 的 容忍 度 越 大 ,但 是 无 关 文 档 的 匹配 机 会 也 会 越 大 , 即 正 误差 (false 
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positives) 越 大 ; S 越 小 , 正 误差 越 小 ,但 是 检测 小 程度 重合 文档 的 能 力也 越 小 。SCAM 并 未 
确定 一 个 普 适 的 值 ,但 是 认为 s=2. 5 对 于 网 络 新 闻 比 较 合适 。 


9.4 Web 抽取 和 表示 


9.4.1 Web 抽取 


Web 抽取 是 将 非 结构 化 Web 按照 一 定 的 需求 抽取 成 结构 化 数据 。 例 如 互联 网 是 一 个 
巨大 的 资源 ,同一 主题 的 信息 通常 分 散 存放 在 不 同 网 站 ,表现 的 形式 也 各 不 相同 , 若 能 将 这 
些 信 息 收 集 在 一 起 ,采用 结构 化 形式 储存 是 十 分 有 意义 的 。 

实现 Web 抽取 的 方法 主要 包括 两 种 : 一 种 比较 简单 的 是 采用 模板 , 另 一 种 是 不 依赖 网 
页 的 网 页 库 结构 化 抽取 。 

模板 是 事先 对 特定 的 Web 配置 模板 ,设置 需要 的 信息 ,可 以 针对 有 限 多 个 网 站 的 
信息 进行 精确 采集 。 其 优势 是 简单 、 精 确 、 技 术 难 度 低 、 便 于 快速 部 署 ,缺点 是 需要 针 
对 每 个 信息 源 的 网 站 单独 设置 模板 ,在 信息 来 源 多 样 的 情况 下 维护 量 巨 大 ,所 以 适合 
少量 信息 源 的 情况 ,不 是 搜索 引擎 级 的 应 用 ,很 难 满足 用 户 查 全 率 的 要 求 ; 网 页 库 结 构 
化 抽取 方法 是 采用 Web 结构 分 析 与 智能 分 析 转 换 的 方法 ,自动 抽取 结构 化 的 数据 。 其 优 
势 是 可 对 任意 的 正常 的 Web 进行 抽取 ,不 用 对 具体 网 站 事先 生成 模板 ,对 每 个 Web 自动 
实时 地 生成 抽取 规则 ,完全 不 需要 人 工 干预 ,因此 抽取 准确 率 高 ,不 是 机 械 的 匹配 ,准确 
率 达 到 98% 以 上 。 由 于 采用 页 面 的 智能 分 析 技 术 , 去 除了 垃圾 块 , 降 低 分 析 的 压力 ,使 处 
理 速度 大 大 提高 ,通用 性 较 好 ,易于 维护 ,一般 的 非 专业 人 员 经 过 简单 培训 即 可 。 缺 点 是 
技术 难度 大 ,前 期 研发 成 本 高 ,周期 长 ,适合 网 页 库 级 别 结构 化 数据 采集 和 搜索 的 高 端 
应 用 。 


9.4.2 Web 表示 


Web 挖掘 首要 解决 Web 异 构 数 据 的 集成 和 查询 问题 ,因此 需要 一 个 模型 清晰 地 描述 
Web。 针 对 Web 半 结 构 化 的 特点 ,寻找 一 个 半 结 构 化 的 模型 是 解决 问题 的 关键 。 除 了 定义 
一 个 半 结 构 化 数据 模型 外 ,还 需要 一 种 半 结 构 化 抽取 模型 , 即 自动 地 从 现 有 数据 抽取 半 结 构 
化 Web. Web 挖掘 以 半 结 构 化 抽取 模型 和 半 结 构 化 数据 模型 为 前 提 。 

基于 XML 的 新 一 代 WWW 直接 面向 Web 数据 ,不 仅 可 以 很 好 地 兼容 原 有 的 Web 应 
用 ,而 且 可 以 更 好 地 实现 Web 数据 的 共享 和 交换 。XML 可 看 作 一 种 半 结 构 化 的 数据 模型 ， 
可 以 很 容易 地 将 XML 的 文档 描述 与 关系 数据 库 的 属性 一 一 对 应 起 来 ,实施 精确 地 查询 与 
抽取 。 

Web 表示 常用 的 模型 是 布尔 模型 .概率 模型 和 向 量 空间 模型 。 其 中 ,向 量 空间 模型 在 
一 般 的 Web 挖掘 中 最 常用 。 

1. 布尔 模型 

采用 布尔 表达 式 对 Web 进行 标识 。 布 尔 模型 在 传统 的 信息 检索 中 有 着 广泛 的 应 用 , 通 
过 与 用 户 给 出 的 检索 式 进 行 逻 辑 比 较 检索 文档 ,本 质 上 是 一 种 基于 关键 词 的 匹配 。 在 标准 


的 布尔 模型 中 ,Web 文档 表示 为 DOV a Wa ,…,W), 其 中 为 特征 项 的 个 数 ,Wi 的 值 为 0 
或 1, 分 别 表示 特征 项 在 文档 i 中 是 否 出 现 。 

2. 概率 模型 

概率 模型 考虑 词 与 词 的 相关 性 ,把 Web 文档 集合 中 的 对 象 分 为 相关 的 和 无 关 的 。 基 于 
概率 ,通过 对 词 赋予 某 一 概率 值 表示 其 在 相关 文档 和 无 关 文档 出 现 的 概率 ,然后 计算 文档 之 
间 的 相关 概率 ,系统 依据 词 概率 做 出 决策 。 

概率 模型 有 多 种 形式 ,常见 的 是 第 二 概率 模型 ,其 基本 思想 是 词 的 概率 一 般 是 重复 若干 
词 相关 性 计算 ,每 重复 一 次 ,就 由 用 户 对 检 出 文档 进行 人 工 判断 。 然 后 利用 这 种 反馈 信息 ， 
根据 词 在 相关 文档 集合 和 无 关 文 档 集 合 的 分 布 计算 其 相关 概率 。 在 该 模型 中 , 词 的 权 值 计 
算 公式 为 : 

jog ZUZE (9.15) 


其 中 ,p 和 p' 分 别 表示 某 词 在 相关 文档 集合 和 无 关 文档 集合 中 出 现 的 概率 。 某 一 文档 
的 权 值 (决定 其 排序 的 位 置 ) 则 是 它 所 含 标 引 词 的 权 值 之 和 ,因此 文档 与 用 户 查询 相关 概率 
可 定义 为 : 

S(Q.D)— > c (9.16) 
概率 模型 的 主要 优点 是 : 

。 采 用 严格 的 数学 理论 为 依据 ,实现 匹配 。 

。 采用 相关 反馈 原理 。 

主要 缺点 是 : 

。 增加 存储 和 计算 的 开销 。 

。 参数 估计 难度 较 大 。 

3. 向 量 空间 模型 

向 量 空间 模型 (Vector Space Model. SVM) & 20 世纪 60 年 代 末 由 Gerard Salton 等 提 
出 的 ,是 一 个 统计 模型 。 该 模型 以 特征 项 作为 Web 表示 的 基本 单位 。 在 向 量 空 间 模 型 中 ， 
Web 的 内 容 被 形式 化 为 多 维 空间 中 的 一 个 点 ,表示 为 向 量 的 形式 , 正 是 因为 把 文档 以 向 量 
的 形式 定 映射 到 实数 域 , 极 大 地 提高 了 文档 的 可 计算 性 和 可 操作 性 。 

定义 9.1: 文档 (Document) 

泛 指 一 般 的 文献 或 文献 中 的 片段 (段落 、 句 子 组 或 句子 ) ,一 般 指 一 篇 文章 。 

定义 9.2: Ji Term) 

当 文 档 的 内 容 被 简单 地 看 成 是 其 含有 的 基本 语言 单位 ( 字 、 词 .词组 或 短语 等 ) 所 组 成 的 
集合 时 ,这 些 基 本 的 语言 单位 统称 为 项 , 即 文档 D 可 以 用 项 集 (Term List) 表 示 为 DCT, 
Ty T) ,其 中 T, 是 项 , 且 1<k<n。 

定义 9.3: 项 的 权重 (Term Weight) 

对 于 含有 个 项 的 文档 DCT Tast Ta) M T, 常 被 赋予 一 定 的 权重 W, ,表示 其 在 文 
档 中 的 重要 程度 , 即 DCT Wi;T,W::…3;T,W。)。 有 时 在 特征 词 条 确定 时 , 常 简 记 为 
D=D(W',W,,*…,W,). 
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定义 9.4: 向 量 空间 模型 

给 定 一 个 文档 D-DCD Wis T; Wists Ta Wp) ,由 于 项 在 文档 中 既 可 以 重复 出 
现 也 存在 先后 次 序 的 关系 ,分析 起 来 有 一 定 难 度 。 为 了 简化 ,可 以 暂 不 考虑 T, 在 文档 中 的 
先后 顺序 并 要 求 T, 互 异 ( 即 没有 重复 )。 这 时 可 以 把 Ti. To. T, 看 成 一 个 维 的 坐标 
系 ,而 Wi Wast W, 为 相应 的 坐标 值 ,因而 D— DOW; ,Ws,…,W,) 看 成 是 n 维 空间 中 一 
个 向 量 , 称 DOW, Ws «WOO CES D 的 向 量 表 示 。 

定义 9.5: 文档 特征 向 量 (Feature Vector) 

VSM 中 每 一 个 文档 都 可 以 用 一 个 向 量 表示 ,向 量 由 项 ( 词 条 ) 及 其 权重 组 成 。 该 向 量 称 
为 文档 的 特征 向 量 ,特征 向 量 是 文档 的 一 个 特征 表示 ,在 某 种 意义 上 可 以 完全 代表 文档 的 
特性 。 

在 VSM 中 ,每 一 文档 被 映射 成 多 维 向 量 空间 中 的 一 个 点 ,从 而 将 文档 的 表示 和 匹配 问 
题 转化 为 向 量 空间 向 量 的 表示 和 匹配 问题 。 

VSM 模型 的 不 足 之 处 是 将 Web 表示 成 向 量 ,作为 向 量 空 间 的 一 个 点 ,然后 通过 计算 向 
量 间 的 距离 进行 分 类 ,一般 不 考虑 向 量 中 各 个 特征 间 的 关系 。 这 使 得 距离 的 计算 不 够 准确 ， 
从 而 导致 分 类 精度 不 高 。 


9.5 Web 特征 提取 


Web 挖掘 中 ,通常 以 特征 项 组 成 的 向 量 表示 Web 文档 。 但 如 果 不 加 以 筛选 ,特征 项 的 
数量 可 能 会 有 成 千 上 万 ,以 Web 挖掘 中 的 Web 分 类 为 例 , 对 其 至 少 会 造成 两 方面 的 不 利 
影响 。 

CD 许多 Web 挖掘 不 能 处 理 如 此 高 维 的 特征 向 量 。 例 如 Bayes 分 类 器 ,即使 是 利用 了 
独立 性 假设 的 Naive Bayes 方法 (这 个 假设 在 实际 中 通常 是 不 正确 的 ?面临 这 样 的 特征 向 
量 , 其 计算 量 也 非常 巨大 。 

(2) 特征 向 量 中 的 有 些 词 对 于 Web 分 类 的 作用 非常 小 ,可 以 说 绝 大 多 数 的 词 对 于 Web 
分 类 是 没有 什么 作用 的 ,特别 是 考虑 到 训练 文档 的 个 数 非 常 有 限 。 相 反 , 过 多 的 特征 项 通常 
会 带 来 负面 的 影响 ,这 是 因为 特征 项 越 多 ,利用 有 限 的 训练 文档 估算 特征 项 的 概率 分 布 就 越 
不 准确 。 

鉴于 上 述 原因 ,在 Web 分 类 之 前 先进 行 特 征 提取 ,不 仅 能 减 小 Web 分 类 的 复杂 度 ,而 
且 对 于 提高 最 终 的 分 类 精度 也 会 有 所 帮助 。 

在 Web 特征 提取 算法 中 ,通常 是 构造 一 个 评价 函数 ,对 特征 集中 的 每 个 特征 进行 独立 
的 评估 ,这 样 每 个 特征 都 获得 一 个 评估 分 (又 称 为 权 值 ) ,然后 对 所 有 的 特征 按照 其 权 值 大 小 
排序 ,选取 预定 数目 的 最 佳 特征 作为 特征 子 集 , 即 作为 文档 的 主题 词 提出 。 

特征 提取 主要 用 于 排除 那些 被 认为 无 关 或 关联 性 不 大 的 特征 (如 术语 ), 提 出 可 以 代表 
Web 的 特征 ,为 后 续 的 Web 挖掘 莫 定 基础 。 目 前 ,特征 提取 方法 很 多 ,如 词 频 统计 的 方法 
和 TFIDF 等 。 

1. 词 频 统计 

词 频 统 计算 法 非常 简单 , 即 合并 重复 出 现 的 特征 项 ,计算 文档 DCT: Wis T? Wo sns 


T, WO fos Wr 3 T; 的 权重 W;.W; 为 项 T; 在 文档 D 中 出 现 的 次 数 ,并 通过 设 定 适当 的 权 
重 阔 值 提取 文档 特征 。 

2. TFIDF 

TFIDF 是 Salton 和 McGill 在 1983 年 针对 向 量 空 间 信 息 检索 范例 (Vector space 
Information Retrieval Paradigm) 提 出 的 特征 表示 方法 ,其 中 ,TF(Term Frequency) 为 特征 
项 的 文档 内 频 度 , 即 特征 项 T, 在 文档 d 中 出 现 的 次 数 , 记 为 tf (ti;,d); DF (Document 
Frequency) 为 特征 项 的 文档 频 度 , 即 在 文档 集合 中 出 现 T; 的 文档 数 , 记 为 df Guo; IDF 
(Inverse Document Frequency) 为 特征 项 的 反 文档 频 度 , 即 

idfG;) = log(n/df(1:)) (9.17) 
其 中 ,n 表示 训练 样本 的 总 数 。 
一 般 地 ,TFIDF 中 文档 的 向 量 表示 DOW, ,W;,…,W,) 中 对 应 项 T; 的 权重 W; 定义 为 : 
W, = tfCGt;.d) X idf(t;) (9. 18) 

使 用 TFIDF 的 明显 优势 是 随 着 特征 项 T; 在 文档 d 中 出 现 次 数 的 增加 ,tf(t;,d) 增 
大 ,这 样 特征 项 T: 的 权重 也 随 之 增 大 ,这 与 通常 的 理解 相 一 致 ; 如 果 特 征 项 T, 在 训练 
样本 集合 的 许多 文档 中 出 现 , 则 idf(za) 将 减 小 ,这 样 特征 项 T, 的 权重 也 随 之 减 小 ,其 对 
分 辩 文 档 类 别 的 作用 也 将 减 小 ,这 是 因为 如 果 特 征 项 T; 的 文档 频 度 很 高 , 则 它 分 辨 这 
些 文档 的 能 力 相 对 减弱 ,所 以 使 其 权重 减 小 ,而 那些 更 能 分 辨 Web 类 别 的 特征 项 权重 
将 增 大 。 

采用 TFIDF 算法 在 一 定 程度 上 减少 了 常用 词 对 文档 特征 抽取 的 影响 ,突出 重要 的 特 
征 项 ,同时 又 考虑 了 整个 文档 集合 中 文档 之 间 的 关系 ,因此 提取 的 特征 具有 和 较 高 的 代 

3. 互信 息 

互信 息 是 统计 模型 中 衡量 两 个 随机 变量 X 和 YY 之 间 关 联 程度 的 常用 参数 。 互 信息 越 
大 ,两 个 特征 项 之 间 的 共 现 性 越 大 ,同样 , 词 和 类 别 的 互信 息 越 大 ,说 明 词 和 类 别 的 关系 就 越 
密切 。 可 根据 词 和 类 别 的 互信 息 (Mutual Information, MD 进行 特征 提取 。 

利用 互信 息 提 取 特 征 的 过 程 如 下 : 

(1) 初始 情况 下 ,该 特征 项 集合 包含 所 有 该 类 中 出 现 的 词 。 

(2) 对 于 每 个 词 ,计算 词 和 类 别 的 互信 息 , 即 : 


PW | 3 log, PW,C;) 
PW) E pW) X pla) 


其 中 PCW,C;) 是 训练 样本 中 特征 项 W 出 现在 类 别 C; 的 频率 ,P(W) 是 训练 样本 中 特 
征 项 W 出 现 的 频率 。 

CD 对 于 该 类 中 所 有 的 词 ,依据 计算 出 的 互信 息 排序 。 

(4) 抽取 一 定数 量 的 词 作为 特征 项 ,具体 需要 选取 多 少 特征 项 ,目前 没有 很 好 的 确定 方 
法 ,一 般 采 用 先 定 初始 值 ,然后 根据 实验 测试 和 统计 结果 确定 最 佳 值 。 

(5) 将 每 类 中 所 有 的 训练 样本 ,根据 抽取 的 特征 项 ,进行 向 量 维 数 压缩 和 精简 。 


MW,C;) log ( (9.19) 
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9.6 Web 聚 类 


从 国内 外 发 展 来 看 , Web 分 类 已 取得 了 显著 的 成 效 , 尤 其 是 美国 ,德国 及 英国 等 对 此 领 
域 的 探讨 使 文本 分 类 在 理论 和 实践 上 都 取得 很 大 的 进步 。 相 对 而 言 , Web 聚 类 处 于 起 步 和 
发 展 阶段 。 目 前 , Web 聚 类 主要 应 用 于 模式 识别 .空间 数据 分 析 ( 在 地 理 信息 系统 中 ,通过 
聚 类 发 现 特征 空间 来 建立 主题 索引 ; 在 空间 数据 挖掘 中 ,检测 并 解释 空间 中 的 簇 ) 、 图 像 处 
理 、 经 济 学 (尤其 是 市 场 研 究 方面 ) 以 及 互联 网 中 的 文档 分 类 和 分 析 Web 日 志 数 据 以 发 现 相 
似 的 访问 模式 等 。 

Web 聚 类 是 把 一 堆 Web 文档 自动 划分 成 不 同 的 类 别 , 任 一 类 别 内 的 Web 文档 与 同类 
别 内 的 其 他 文档 的 相似 度 要 大 于 该 文档 与 其 他 类 别 文档 之 间 的 相似 度 。 

一 般 地 ,Web 聚 类 包括 四 个 步骤 : 

(1) 模式 表示 ,包括 特征 抽取 以 及 把 Web 文档 表示 成 可 计算 的 形式 ; 

(2) 根据 领域 知识 定义 模式 之 间 的 距离 度量 公式 ; 

(3) 聚 类 或 者 分 组 

(4) 评价 结果 。 

目前 , Web 聚 类 面临 的 主要 挑战 是 : 

。 一 个 Web 文 档 可 能 包含 多 个 主题 ,允许 属于 不 同 主题 的 文档 归 入 多 个 不 同 的 簇 。 

。 高 维 诅咒 问题 ,由 于 文档 特征 项 维度 众多 而 造成 处 理 效率 严重 降低 。 

。 海量 文档 的 处 理 效率 。 

。 聚 类 效果 评价 。 

Web 聚 类 在 智能 信息 检索 .话题 检测 与 跟踪 和 自动 文摘 等 领域 都 有 非常 广泛 的 应 用 。 
特别 是 在 大 规模 情报 分 析 、 企 业 竞争 情报 、 敏 感 社区 发 现 和 股 情 分 析 等 方面 具有 很 大 优势 ， 
成 为 人 们 广泛 研究 和 使 用 的 Web 挖掘 工具 之 一 。 

Web 聚 类 的 目标 是 使 类 内 的 距离 尽 可 能 的 小 ,类 间 的 距离 尽 可 能 的 大 , 即 相似 的 文档 
(距离 小 ) 尽 可 能 聚 在 一 起 ,不 相似 (距离 大 ) 的 文档 分 成 不 同 的 类 。 

相似 度 的 计算 方法 有 很 多 种 。 在 采用 向 量 空间 表示 Web 的 模型 中 ,可 以 通过 计算 两 个 
向 量 之 间 的 相似 度 求 得 文档 与 类 别 之 间 的 相似 度 , 经 常 采 用 的 是 欧式 距离 , 即 : 

D(S,T) = (>) G; — TO! y? (9. 20) 


按照 Web 文档 表示 方法 的 不 同 , 可 将 现 有 的 Web 228 41 2 3& T i8] CWord-based) fff , 4E 
于 知识 (Knowledge-based) 的 和 基于 信息 (Information-based) 的 三 类 。 

(1) 基于 词 (Word-based) 

理论 上 ,文本 自动 处 理 是 以 概念 为 基本 处 理 单元 的 ,而 词 是 概念 的 基本 组 成 部 分 ,是 不 
可 再 分 的 基本 表意 单元 ,是 信息 的 基本 载体 。 因 此 用 词 代表 文本 显然 是 可 行 的 。 这 种 方法 
需要 较 好 的 切 分 技术 对 文本 进行 切 分 ,在 此 基础 上 这 种 方法 的 关键 是 合理 选取 那些 可 以 代 
表 文 本 主题 内 容 的 词汇 ,并 据 此 对 文本 进行 自动 类 别 判定 。 

(2) 基于 知识 (Knowledge-based) 

这 种 基于 知识 的 文本 聚 类 方法 主要 依赖 于 一 个 明确 的 知识 库 。 知 识 的 表示 方法 主要 包 


括 产生 式 、. 语 义 网 络 、 框 架 、 谓 词 .面向 对 象 . 粗 糙 集 .神经 网 络 、 基 于 语言 场 和 基于 知识 本 体 
表示 法 等 。 基 于 知识 的 聚 类 的 显著 特点 是 需要 手工 建造 知识 库 , 且 建造 的 知识 库 领域 性 极 
强 , 可 移植 性 较 差 。 有 研究 表明 ,在 一 定 领 域内 ,基于 知识 的 自动 聚 类 能 够 快速 准确 地 进行 
文本 归 类 。 

(3) 基于 信息 (Information-based) 

基于 信息 的 聚 类 是 一 种 介 于 基于 词 和 基于 知识 的 聚 类 之 间 的 方法 。 该 方法 对 上 下 文敏 
感 ,是 一 种 有 选择 的 概念 抽取 技术 。 用 于 文本 聚 类 中 ,只 抽取 那些 对 文本 分 类 有 用 的 信息 ， 
即 抽 取 短 语 及 短语 周围 的 文本 和 潜在 的 语义 信息 进行 文本 类 别 的 确定 。 需 要 指出 的 是 ,这 
种 方法 可 以 用 来 处 理 没有 关键 词 或 关键 短语 的 文章 ,并且 避免 了 基于 词 的 文本 自动 归 类 在 
处 理 一 词 多 义 一 义 多 词 .短语 、 局 部 文本 以 至 全 文 文本 的 局 限 性 。 

实现 Web 聚 类 的 方法 不 少 ,主要 包括 平面 划分 聚 类 、 层 次 聚 类 、 基 于 网 格 的 方法 、 基 于 
密度 的 方法 和 基于 模型 的 方法 等 。 下 面 简要 介绍 层次 聚 类 法 和 平面 划分 法 。 

1. 层次 聚 类 法 

层次 聚 类 法 是 建立 在 给 定数 据 集合 的 一 个 层次 性 的 分 解 , 根 据 层 次 分 解 的 形成 过 程 ,这 
类 方法 可 分 为 分 裂 ( 自 顶 向 下 ) 的 或 合并 ( 自 底 向 上 ) 的 。 为 了 弥补 合并 或 分 型 的 严格 性 , 层 
次 聚 类 方法 的 聚 类 质量 可 以 通过 分 析 每 个 层次 划分 中 的 对 象 链接 ,或 集成 其 他 的 聚 类 方法 
加 以 改进 。 

对 于 给 定 的 Web 文档 集 D— (di d.) ,层次 聚 类 的 具体 过 程 为 : 

CD 将 文档 集 D— (di ,…',du} 中 的 每 一 个 文档 d; 看 作 是 一 个 具有 单个 成 员 的 类 C; = 
(d) ,这 些 类 构成 了 的 一 个 聚 类 C 一 {c cv}; 

(2) 计算 C 中 每 对 类 (ci,cj) 之 间 的 相似 度 sim(c yc ); 

G) 选取 具有 最 大 相似 度 的 类 对 arg. max sim(ci'c) ,并 将 c; 和 cj 合并 为 一 个 新 的 类 
C4 二 ciUcj ,从 而 构成 DD 的 一 个 新 的 类 C= (e cua 

OD 重复 上 述 步骤 ,直到 C 中 只 剩 下 一 个 类 为 止 。 

该 过 程 构造 出 一 棵 生成 树 ,其 中 包含 了 类 的 层次 信息 以 及 所 有 类 内 和 类 间 的 相似 度 。 
层次 聚 类 是 最 常用 的 Web 聚 类 方法 , 它 能 够 生成 层次 化 的 嵌 套 类 ,而且 准确 度 高 。 但 是 ,在 
每 次 合并 时 ,需要 全 局 地 比较 所 有 类 之 间 的 相似 度 ,并 选择 出 最 佳 的 两 个 类 ,因此 运算 速度 
较 慢 ,不 适合 大 量 文档 的 集合 。 

2. 平面 划分 法 

平面 划分 聚 类 法 与 层次 聚 类 法 的 区 别 在 于 , 它 将 文档 集合 水 平地 分 割 为 若干 类 ,而 不 是 
生成 层次 化 的 组 套 类 。 它 首先 得 到 初始 个 划分 的 集合 ,参数 是 划分 簇 的 数目 ,然后 采用 
迭代 重 定位 技术 ,通过 将 对 象 从 一 个 簇 移 到 另 一 个 簇 优化 划分 。 

将 文档 集合 D— (di ,d;，,…,d,) 水 平地 分 割 为 若干 类 ,具体 过 程 为 : 

CD 确定 生成 的 类 的 数目 六; 

(2) 按照 某 种 原则 生成 & 个 聚 类 中 心 作 为 聚 类 的 种 子 S 一 (人 ss sk) 

(3) XE D 中 的 每 个 文档 d; ,依次 计算 它 与 各 个 种 子 s: 的 相似 度 sim(d; ss: 

(4) 选取 具有 最 大 的 相似 度 的 种 子 arg max sim(d;,s;), 将 d: JIA W s: 为 聚 类 中 心 的 
类 c;, 从 而 得 到 D fg — 2S C — (6.0 ss): 


FILIJ I 


N 
À 
= 


N 


原理 及 应 用 (第 二 版 


O 重复 步骤 (2) 一 (4) ,直到 获得 较为 稳定 的 聚 类 结果 。 

该 方法 运行 速度 快 ,但 是 必须 事先 确定 & 值 , 且 种 子 选 取 的 好 坏 对 聚 类 有 较 大 的 影响 。 
常见 的 平面 划分 法 包括 &- 均 值 和 模糊 c- 均 值 。 

目前 ,学 术 界 对 于 Web 聚 类 并 没有 统一 的 标准 的 评价 方法 ,已 有 的 评价 方法 多 借鉴 信 
息 检 索 或 文本 分 类 等 的 评价 方法 。 


9.7 Web 分 类 


Web 分 类 是 指 按照 预先 定义 的 分 类 体系 ,将 Web 文档 集合 的 每 个 文档 归 入 某 一 类 别 。 
这 样 , 用 户 不 但 能 够 方便 浏览 文档 ,而 且 可 以 通过 限制 搜索 范围 使 文档 的 查找 更 为 容易 。 目 
前 ,Yahoo 仍然 是 通过 人 工 对 Web 文档 进行 分 类 ,这 大 大 限制 了 其 索引 页 面 的 数目 和 和 覆盖 
范围 。 可 以 说 ,研究 Web 分 类 有 着 广泛 的 商业 前 景 和 应 用 价值 。 

文本 特征 指 的 是 关于 文本 的 元 数据 ,分 为 描述 性 特征 (例如 文本 的 名 称 \ 日 期 \ 大 小 和 类 
型 等 ) 以 及 语义 性 特征 (例如 文档 的 作者 、 机 构 \ 标 题 \ 内 容 等 )。 对 于 内 容 这 个 难以 表示 的 特 
征 , 首 先 要 找到 一 种 能 够 被 计算 机 所 处 理 的 表示 方法 。 

向 量 空间 模型 是 近年 来 应 用 较 多 的 并 且 效 果 较 好 的 方法 之 一 。 在 该 模型 中 ,文档 被 看 
作 是 由 一 组 正 交 词 条 向 量 组 成 的 向 量 空间 ,每 个 文档 表示 为 其 中 的 一 个 规范 化 特征 向 量 , 用 
文档 中 出 现 的 所 有 单词 表示 其 内 容 特 征 。 预 处 理 的 过 程 首 先 排除 出 现 频率 高 但 是 含义 虚 泛 
的 词语 ,例如 英文 中 的 athe each, for, 汉 语 中 的 “地 、 得 .的 \ 这 、 虽 然 " 等 ; 然后 排除 那些 在 
文档 集合 中 出 现 频率 很 低 的 单字 ; 在 英文 中 还 可 以 去 除 前 级 ,找到 词根 ,如 walker, walking 
和 walked 都 可 以 是 同一 个 词 walk, 

Web 分 类 是 有 指导 的 机 器 学 习 , 即 利用 预定 义 的 分 类 类 别 和 训练 样本 集 指导 学 习 , 预 
测 待 分 类 样本 的 类 别 。 

从 数学 角度 而 言 , Web 分 类 定义 为 设 文档 集 D= (didi id; ,类 集 CS (ase enel. 
确定 任意 一 个 元 组 二 dj ,ci 二 映射 到 集合 {T,F} 上 的 值 , 故 Web 分 类 器 本 质 上 是 一 个 函数 
DXC--(T,.F). 

广义 而 言 ,分 类 是 数据 挖掘 的 一 种 方法 ,但 与 传统 的 数据 挖掘 不 同 的 是 , Web 分 类 的 对 
象 是 半 结 构 化 或 非 结构 化 的 。 目 前 Web 分 类 最 普遍 的 实现 方法 是 将 Web 文档 结构 化 后 ， 
再 运用 传统 的 分 类 算法 。 

Web 分 类 过 程 如 图 9. 14 所 示 ,首先 对 Web 文档 进行 预 处 理 ,将 文档 用 模型 表示 ,并进 
行 特 征 提取 ; 然后 构造 并 训练 分 类 器 ; 最 后 利用 分 类 器 对 新 的 Web 文档 进行 分 类 。 

Web 分 类 基本 上 都 需要 经 过 训练 和 测试 两 个 阶段 ,按照 Web 分 类 的 定义 ,训练 阶段 就 
是 寻找 映射 函数 的 过 程 , 即 形成 分 类 器 ; 测试 阶段 是 利用 训练 生成 的 模式 ,自动 完成 分 类 。 

在 Web 文档 建 模 的 基础 上 ,根据 文档 表示 模型 的 区 别 , 可 以 将 Web 分 类 算法 分 成 基 
于 特征 独立 性 算法 和 基于 特征 依赖 性 算法 。 基 于 特征 独立 性 算法 忽略 了 文档 内 词汇 或 
短语 之 间 的 语义 关系 ,文档 被 表现 为 分 量 间 关系 独立 的 向 量 ,主要 利用 数学 统计 方法 将 
Web 分 类 问题 转换 为 数学 分 析 , 包 括 相似 度 模型 .概率 模型 线性 模型 、 非 线性 模型 和 组 合 

在 相似 度 模型 中 ,一 种 方法 是 计算 文档 与 代表 某 一 文档 类 别 的 中 心 向 量 之 间 的 相似 度 
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图 9.14 Web 分 类 过 程 


sim(d, ,ci)。 其 中 类 别 的 中 心 向 量 是 根据 测试 文本 统计 计算 的 估计 值 。 类 的 中 心 向 量 的 计 
算 包 括 算 术 平 均 、 频 率 的 加 权 平 均 和 Rocchio 公式 等 ,相似 度 的 计算 方法 有 多 种 ,常用 的 
包括 : 

CD 词 条 重复 率 , 即 只 考虑 两 个 特征 向 量 中 所 包含 的 词 条 的 重复 程度 , 即 : 
ni(di sci) 


sim(d, c) — TX (9.21) 
其 中 ,nCdis,c) 是 V(di) 和 Vlci) 具 有 的 相同 词 条 数目 ,ny Cd sci) J& V CA, ) HI V Cc He 
有 的 所 有 词 条 数目 。 
(2) 夹 角 余弦 , 即 考虑 两 个 特征 向 量 之 间 夹 角 的 余弦 , 即 : 
aldae "TRU ( 9.22) 


其 中 ,VCdo)。V(c) 为 标准 向 量 点 积 。 
(3) 欧 几 里 得 距离 , 即 两 个 向 量 的 空间 距离 , 即 : 


| 9) (4j — c)? (9. 23) 
一 1 


另 一 种 方法 不 需要 建立 描述 文档 类 别 的 中 心 向 量 , 而 是 依赖 于 测试 文档 与 训练 文档 之 
间 的 相似 度 。 典 型 算法 是 & 近邻 算法 ,算法 的 主要 思路 是 计算 训练 集 与 测试 文档 距离 最 近 
的 个 文档 ( 即 个 近邻 ) ,根据 这 个 文档 的 类 别 判定 待 分 类 文档 的 类 别 。 


9.7.1 朴素 贝 叶 斯 


朴素 贝 叶 斯 (Naive Bayes,NB) 是 概率 模型 的 典型 算法 ,其 主要 思想 是 基于 贝 叶 斯 假 
设 , 即 文档 中 的 词汇 在 确定 文档 类 别 的 作用 上 相互 独立 。 它 首先 计算 特征 词 属于 每 个 类 别 
的 先 验 概率 ,根据 特征 词 的 先 验 概率 计算 该 文档 属于 每 个 类 别 的 后 验 概率 ,最 后 取 后 验 概率 
最 大 的 类 别 作为 分 类 结果 。 很 多 学 者 对 朴素 贝 叶 斯 算法 进行 了 改进 ,如 增强 型 朴素 贝 叶 斯 
算法 .与 潜在 语义 索引 结合 的 贝 叶 斯 方法 以 及 贝 叶 斯 层次 分 类 等 。 

若 文档 向 量 的 分 量 为 相应 的 词 在 文档 中 出 现 的 频 度 ( 即 TF 表示 法 ), 则 采用 该 方法 表 
示 的 文档 属于 c 类 文档 的 概率 为 : 
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P(o) [[ F; € VP(F;/O) TRF; ,Doc) 


P(Cc/Doc) (9.24) 
MPco [[ F; € VPG/c)TFCG,. Doc) 
Pm EE TEC. (9. 25) 
IV I+ >)TFCFc) 


其 中 ,P(c) 为 一 个 文档 属于 类 的 概率 ; P(F;/c) 是 对 c 类 文档 中 特征 F; 出 现 的 条 件 概 
率 的 拉 普 拉 斯 概率 估计 ; TF(F;,c) 是 c 类 文档 中 特征 下 ; 出 现 的 频 度 ; |V | 为 单字 辞典 集 
的 大 小 ,等 于 文档 表示 中 所 包含 的 不 同 特征 的 总 数目 ; TFCF; ,Doc) 是 在 文档 中 特征 F; 出 

虽然 设 定 条 件 独立 性 假设 对 词汇 在 文档 中 出 现 不 是 很 适合 ,但 NB 仍 是 一 种 有 效 的 
方法 。 

朴素 贝 叶 斯 算法 的 步骤 如 下 s 

Learn Native Bayes(Docs, V) 

(1) 收集 Docs 中 所 有 词汇 

(2) vocabulary<-Docs 中 文本 文档 出 现 的 所 有 词汇 集合 

(3) 计算 概率 P(V;) 和 P(w |V) 

(3.1) 对 Y 分 类 集中 的 每 一 个 目标 值 WW, 有 docs<-Docs 中 类 标签 的 Vj 的 文档 子 集 ; 
P(V;)-- |docs| /|Docs| n*-fE docs 中 不 同 词汇 的 总 数 
(3.2) 对 vocabulary 中 每 个 词汇 w 有 nm 一 词汇 由 在 docs; 中 出 现 的 次 数 P(w |V) 一 
+1 
n+ i 

贝 叶 斯 分 类 器 的 特点 如 下 : 

(1) 贝 叶 斯 分 类 并 不 把 一 个 对 象 绝对 地 指派 给 某 一 类 ,而 是 通过 计算 得 出 属于 某 一 类 
的 概率 ,具有 最 大 概率 的 类 便 是 该 对 象 所 属 的 类 。 

(2) 一 般 情况 下 在 贝 叶 斯 分 类 中 所 有 的 属性 都 潜在 地 起 作用 , 即 并 不 是 一 个 或 几 个 属 
性 决定 分 类 ,而 是 所 有 的 属性 都 参与 分 类 。 

(3) 贝 叶 斯 分 类 对 象 的 属性 可 以 是 离散 的 、 连 续 的 ,也 可 以 是 混合 的 。 

贝 叶 斯 定理 给 出 了 最 小 化 误差 的 最 优化 方法 ,可 用 于 分 类 和 预测 。 理 论 上 很 完美 ,但 在 
实际 中 ,并 不 能 直接 利用 ,因为 需要 知道 数据 的 确切 分 布 概率 ,而 实际 上 并 不 能 确切 地 给 出 。 
因此 在 很 多 Web 分 类 算法 中 都 会 做 出 某 种 假设 以 允 近 贝 叶 斯 定理 的 条 件 独立 性 假设 。 


9.7.2 支持 向 量 机 


支持 向 量 机 (Support Vector Machines,SVM) 是 对 结构 风险 最 小 化 原则 的 近似 ,该 算 
法 的 主要 思想 是 在 给 定 的 训练 集 上 , 作 一 个 超 平面 的 线性 划分 ,将 分 类 问题 转化 为 一 个 寻找 
空间 最 优 平面 的 问题 ,再 次 转化 成 一 个 二 次 规划 问题 。 理 由 是 如 果 所 有 的 向 量 都 能 够 被 某 
个 超 平面 正确 划分 ,并 且 各 类 向 量 与 超 平面 的 最 小 距离 最 大 化 ( 即 边缘 最 大 化 ) , 则 该 平面 为 
最 优 超 平面 ,距离 平面 最 近 的 异类 向 量 为 支持 向 量 , 一 组 支持 向 量 可 以 唯一 确定 一 个 超 
平面 。 


9.7.3 评价 


通常 地 ,评价 Web 分 类 准确 率 有 保留 和 交叉 纠 错 两 种 方法 ,它们 都 假定 待 预测 样本 和 
训练 集 样本 具有 同样 的 分 布 。 

(1) 保留 (Holdout) : 数据 集 的 一 部 分 (通常 是 2/3) 作 为 训练 集 ,剩余 部 分 用 作 测 试 
集 。 利 用 训练 集 构造 分 类 器 ,然后 使 用 这 个 分 类 器 对 测试 集 进 行 分 类 , 即 评估 分 类 器 的 
准确 率 。 

虽然 这 种 方法 速度 快 ,但 由 于 仅 使 用 2/3 的 数据 构造 分 类 器 ,并 没有 充分 利用 所 有 的 数 
据 样 本 进行 学 习 训练 。 如 果 使 用 所 有 的 数据 ,那么 可 能 构造 出 更 精确 的 分 类 器 。 

(2) 交叉 纠 错 (Cross Validation): 数据 集 被 划分 为 个 没有 交叉 的 子 集 ,所 有 子 集 的 
大 小 大 致 相同 。 分 类 器 训练 和 测试 次; 每 次 分 类 器 使 用 一 个 子 集 的 剩余 数据 作为 训练 
集 , 然 后 在 该 子 集 上 进行 测试 。 最 终 取 所 有 准确 率 的 平均 值 作为 评估 结果 。 

交叉 纠 错 方法 可 以 重复 执行 多 次 ,对 于 一 个 + 次 k 分 的 交叉 纠 错 法 ,kXt 个 分 类 器 被 构 
造 和 评估 ,这 意味 着 交 又 纠 错 法 的 时 间 是 分 类 器 构造 时 间 的 kXt 倍 。 增 加 重复 的 次 数 意 味 
着 运行 时 间 的 延长 和 准确 率 的 改善 。 对 & 值 进行 调整 ,减少 到 3 一 5, 这 样 可 以 缩短 运行 时 
间 。 然 而 , 减 小 训练 集 有 可 能 使 评估 产生 较 大 的 偏差 。 

通常 ,保留 评估 法 适用 于 最 初 的 探索 性 试验 ,或 者 数据 量 多 于 5000 的 数据 集 ; 交叉 纠 
错 法 用 于 建立 最 终 的 分 类 器 ,或 者 很 小 的 数据 集 。 

Web 分 类 的 评价 指标 主要 包括 : 

(1) 准确 率 一 一 模型 正确 预测 未 知 数据 的 能 力 。 

(2) 速度 一 一 构建 和 使 用 模型 花费 的 时 间 。 

(3) 健壮 性 一 一 有 噪声 或 缺失 数据 时 模型 正确 分 类 或 预测 的 能 力 。 

(4) 伸缩 性 一 一 对 于 大 数据 量 , 有 效 地 构造 模型 的 能 力 。 

(5) 可 解释 性 一 一 学 习 模 型 提供 的 理解 和 观察 的 层次 o 

Web 分 类 常用 的 评估 指标 有 分 类 正确 率 、 查 准 率 (Precision Rate)、 查 全 率 (Recall 
Rate) F 测度 、 宏 平均 和 微 平均 等 。 其 中 ,分 类 正确 率 A 定义 为 所 有 正确 分 类 的 样本 数 与 
整个 测试 集 样本 数 的 比 。 查 准 率 和 查 全 率 又 称 为 精确 率 和 召回 率 , 是 信息 检索 的 评估 指标 ， 
同样 也 适用 于 Web 分 类 。 查 准 率 是 指 分 类 器 判定 的 属于 类 别 C. 的 所 有 文档 中 ,确实 属于 
类 别 C, 的 文档 所 占 的 比例 , 即 : 

Pr = 实际 正确 分 类 的 文档 数 / 分 类 器 分 为 类 C; 的 文档 总 数 
查 全 率 是 指 原 本 属于 类 别 C 的 所 有 文档 中 ,分 类 器 正确 判定 的 文档 所 占 的 比例 , 即 : 
Re 二 实际 正确 分 类 的 文档 数 /原本 属于 类 C; 的 文档 总 数 

微 平均 计算 所 有 类 别 中 正确 分 类 和 错误 分 类 的 样本 总 数 ,再 求 查 准 率 和 查 全 率 ; 宏 平 

均 首 先 计 算 各 个 类 别 的 查 准 率 和 查 全 率 ,然后 取 算 术 平 均 。 目 前 ,关于 哪 种 评价 方法 好 还 没 


有 定论 。 
下 测度 是 由 C.J. Van Rijsbergen 提出 ,其 定义 为 : 
NR 2 _ 2rp 
F "p pelo (9. 26) 
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其 中 ,r 是 查 全 率 ,p 是 查 准 率 ,下 通过 赋予 查 准 率 和 查 全 率 相同 的 权重 平衡 对 两 者 的 
评价 。 

实际 中 ,影响 Web 分 类 器 准确 率 的 主要 因素 包括 : 

(1) 训练 集 的 规模 。 因 为 利用 训练 集 对 分 类 器 进行 学 习 和 训练 ,所 以 训练 集 规模 越 大 ， 
分 类 器 性 能 越 可 靠 。 然 而 ,训练 集 规模 越 大 ,构造 分 类 器 所 需 时 间 就 越 长 。 分 类 准确 率 随 训 
练 集 规模 的 增 大 而 提高 。 

(2) 属性 的 数量 。 更 多 的 属性 对 于 分 类 器 而 言 意味 着 计算 更 多 的 组 合 ,计算 时 间 更 长 。 
有 时 随机 关系 会 将 分 类 器 引入 歧途 ,导致 可 能 构造 的 分 类 器 准确 率 不 高 。 因 此 ,如 果 可 通过 
常识 分 析 和 判断 某 个 属性 与 分 类 无 关 , 则 删除 。 

G) 属性 中 的 信息 。 有 时 分 类 器 无 法 从 属性 中 获取 足够 的 特征 进行 分 类 和 预测 ,如 试 
图 根据 某 人 眼睛 的 颜色 预测 其 收入 ,可 考虑 引入 其 他 属性 ,如 职业 、 每 周 工作 小 时 数 和 年 龄 
等 ,以 提高 准确 率 。 

(4) 待 测 样本 的 分 布 。 如 果 待 测 样 本 不 同 于 训练 集 的 样本 分 布 , 则 准确 率 可 能 很 低 。 
例如 利用 家 用 型 轿车 的 训练 集 构造 的 分 类 器 ,试图 用 它 对 运动 型 轿车 进行 分 类 可 能 没有 什 
么 意义 ,因为 样本 特征 分 布 可 能 差别 很 大 。 


第 10 章 数据 挖掘 实例 


本 章 主 要 介绍 如 何 运用 数据 挖掘 的 各 种 算法 和 工具 ,解决 实际 问题 ,并 且 对 客户 细 分 、 
重 入 网 识别 . 虚 开 欺诈 识别 和 WAP 日 志 挖掘 等 应 用 实例 进行 详细 介绍 。 


10.1 客户 细 分 


在 过 去 国内 电信 市 场 竞争 相对 平缓 的 环境 下 ,传统 的 大 众 化 营销 模式 是 成 功 的 ,为 企业 
带 来 了 数量 庞大 的 客户 群 和 巨大 的 经 济 和 社会 效益 ,但 随 着 市 场 竞争 环境 的 不 断 演变 ,竞争 
越 来 越 白热化 ,电信 产品 越 来 越 丰 富 ,价格 战 不 断 升 级 ,尤其 是 面向 中 高 端 客户 采用 传统 的 
大 众 化 营销 模式 已 经 不 能 达到 预期 目标 ,无 法 满足 新 的 市 场 需求 。 在 这 种 形势 下 ,需要 探索 
一 种 有 别 于 传统 大 众 化 的 更 有 效 的 新 型 营销 模式 ,有 针对 性 地 吸引 长 期 .稳定 且 优 质 的 客户 
群 ,以 达到 更 高 的 产品 投资 回报 率 ,提高 市 场 占 有 率 ,为 电信 企业 创造 更 高 的 价值 和 利润 , 因 
此 客户 细 分 应 运 而 生 。 客 户 细 分 是 在 充分 了 解 客 户 的 基础 上 ,通过 客户 使 用 行为 特征 、 消 费 
行为 特征 和 自然 属性 等 ,区 别 不 同 的 客户 群 ,以 实现 针对 性 营销 。 


10.1.1 定义 


1. 客户 生命 周期 

客户 生命 周期 (又 称 客户 关系 生命 周期 ) 是 指 客户 关系 随时 间 变 化 的 发 展 轨迹 , 即 从 一 
个 客户 开始 对 企业 进行 了 解 或 企业 欲 发 展 某 一 客户 开始 ,直到 客户 与 企业 的 业务 关系 完全 
终止 且 与 之 相关 的 事宜 完全 处 理 完毕 的 时 间 间 隔 。 它 直观 地 揭示 了 客户 关系 发 展 从 一 种 状 
态 向 另 一 种 状态 迁移 的 特征 。 客 户 生命 周期 是 企业 产品 生命 周期 的 演变 。 对 企业 而 言 , 客 
户 生命 周期 要 比 企 业 某 个 产品 的 生命 周期 更 为 重要 。 

根据 电信 行业 客户 关系 的 特点 ,其 客户 生命 周期 可 分 为 五 个 阶段 .分别 是 识别 期 , 即 客 
户 关系 的 建立 阶段 ; 成 长 期 , 即 客户 关系 的 加 强 阶段 ; 稳定 期 , 即 客户 关系 的 维持 稳定 阶 
Bt. 预警 期 , 即 客户 关系 的 挽留 阶段 ; 离 网 期 , 即 客户 关系 的 破裂 或 恢复 阶段 ,如 图 10. 1 
所 示 。 

对 于 客户 生命 周期 的 不 同 阶段 ,客户 价值 与 企业 的 投入 都 大 不 相同 ,企业 采取 的 策略 也 
有 所 不 同 。 识 别 期 企业 需要 主动 地 发 现 可 能 建立 客户 关系 的 潜在 客户 ,从 广大 消费 群体 中 
挖掘 目标 客户 ; 成 长 期 企业 需要 甄别 客户 类 型 ,挖掘 有 价值 客户 ,采取 客户 关系 提升 策略 ; 
稳定 期 企业 需要 维系 客户 关系 ; 预警 期 企业 需要 发 现 衰退 迹象 ,判断 客户 关系 是 否 值得 保 
持 ,采取 挽留 或 终止 策略 ; 离 网 期 企业 需要 采取 客户 关系 恢复 策略 。 在 明确 客户 生命 周期 
的 基础 上 ,电信 运营 商 需 要 对 客户 进行 全 生命 周期 管理 。 客 户 全 生命 周期 管理 是 指 在 假设 
企业 具备 生产 有 市 场 潜力 的 产品 和 服务 能 力 的 情况 下 ,如何 从 广大 消费 群体 中 发 现 目标 客 
户 , 以 及 围绕 着 目标 客户 关系 的 建立 ,发展 .成熟 和 衰退 这 一 生命 周期 ,根据 客户 关系 所 处 的 
不 同 阶段 ,采用 相应 的 组 合 策略 ,对 目标 客户 资源 进行 动态 管理 ,以 期 实现 企业 和 客户 长 期 
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图 10.1 电信 客户 生命 周期 


的 价值 互动 ,最 大 化 长 期 互动 关系 的 效用 ,达到 客户 与 企业 的 双赢 。 客 户 全 生命 周期 管理 开 
始 于 企业 潜在 客户 的 识别 ,终止 于 企业 与 客户 关系 的 破裂 。 

客户 生命 周期 可 以 根据 客户 使 用 行为 消费 行为 和 客户 价值 等 几 大 类 指标 进行 划分 。 

通过 对 客户 特征 全 面 而 深入 的 分 析 , 细 分 潜在 的 客户 群 ,进一步 识别 客户 需求 ,采用 特 
定 的 营销 手段 吸引 客户 注意 ,使 客户 知晓 企业 及 企业 提供 的 产品 或 服务 。 在 持续 认 知 的 基 
础 上 ,客户 开始 考虑 是 否 使 用 该 企业 的 产品 或 服务 以 满足 自身 需求 。 通 过 对 产品 的 综合 评 
ffr ,客户 决定 是 购买 该 企业 的 产品 或 服务 ,还 是 购买 竞争 对 手 的 产品 或 服务 。 一 旦 客户 决定 
购买 该 企业 的 产品 或 服务 ,实现 了 第 一 次 购买 ,潜在 客户 就 成 为 实际 客户 。 如 果 运 营 商 能 实 
现 有 效 的 维系 ,鼓励 存量 客户 购买 数量 更 多 、 价 值 更 高 的 服务 ,客户 不 断 地 选择 购买 该 企业 
的 产品 和 服务 , 则 客户 关系 得 以 长 期 延续 。 一 旦 发 现 客户 对 该 企业 的 感知 度 或 价值 水 平 下 
跌 而 可 能 流失 , 则 实施 有 效 的 挽留 ,以 降低 因 有 价值 的 客户 不 再 光顾 而 产生 的 流失 ; 同时 可 
以 终止 没有 一 利 能 力 的 、 停 止 发 展 的 或 者 不 令 人 满意 的 客户 关系 ,取而代之 的 是 能 够 更 好 地 
与 企业 的 利润 .成 长 和 定位 相 匹配 的 客户 。 

针对 电信 客户 生命 周期 各 阶段 的 不 同 特点 ,运营 商 可 以 采取 不 同 的 策略 预防 和 控制 客 
户 流失 ,如 表 10. 1 所 示 。 


表 10.1 电信 客户 生命 周期 不 同 阶段 的 客户 维系 挽留 策略 


客户 生命 周期 阶段 成 长 期 稳 定 期 预 警 期 
提升 客户 价值 提高 客户 满意 度 流失 预警 
策略 长 远 规划 营销 方案 设置 转 网 壁 全 欠 费 管理 
市 场 区 隔 老 客户 回报 带 号 转 资费 
2. 客户 价值 


客户 价值 是 近年 来 营销 领域 研究 的 热点 和 难点 之 一 。 营 销 科学 研究 所 (Marketing 
Science Institute) 已 经 连续 几 年 将 客户 价值 列 为 优先 研究 领域 。 对 于 客户 价值 的 研究 可 以 
从 三 方面 展开 , 即 客户 为 价值 感受 主体 .企业 为 价值 感受 主体 以 及 企业 和 客户 互 为 价值 感受 


主体 和 感受 客体 。 


从 企业 的 角度 研究 客户 价值 ,主要 包括 两 个 方面 , 即 客 户 价 值 和 客户 终生 价值 


(Customer Lifetime Value,CLV)。 客 户 价值 是 指 客户 当前 所 产生 的 净利 润 。 客 户 终生 价 
值 的 定义 有 多 种 ,其 中 1985 年 Barbara Jackson 将 客户 终生 价值 定义 为 客户 当前 以 及 将 来 
所 产生 的 货币 利益 的 净 现 值 ; 1994 年 Jackson 将 客户 终身 价值 定义 为 企业 预计 客户 在 长 期 
的 购买 行为 中 ,会 对 该 企业 带 来 未 来 利润 的 总 现 值 ; Bitran 和 Mondschein 认为 客户 终生 价 
值 是 客户 在 整个 生命 周期 内 所 产生 的 净利 润 的 折 现 值 。 综 上 所 述 , 客 户 终生 价值 可 定义 为 
客户 在 整个 生命 周期 内 各 个 交易 期 的 利润 净 现 值 之 和 。 客 户 终生 价值 是 企业 利润 的 重要 来 
源 , 客 户 终生 价值 越 大 ,对 于 企业 长 远 发 展 越 有 利 。 

由 客户 价值 和 客户 终生 价值 的 定义 可 知 ,前 者 关注 客户 在 某 一 时 间 点 上 的 价值 表现 ; 
后 者 关注 客户 在 整个 客户 生命 周期 的 最 终 价值 贡献 。 随 着 对 客户 终生 价值 研究 的 深入 ,很 
自然 地 将 客户 终生 价值 和 客户 生命 周期 两 者 紧密 联系 起 来 。 客 户 生 命 周 期 中 稳定 期 越 长 ， 
客户 价值 折 现 年 限 越 长 ,客户 价值 越 高 。 

客户 价值 计算 

客户 价值 的 含义 可 以 从 用 客户 和 企业 两 个 方面 分 析 。 从 客户 的 角度 而 言 ,客户 价值 是 
指 客户 感知 价值 ,可 利用 1995 年 纽曼 提出 的 客户 价值 特性 /成 本 模型 加 以 说 明 , 如 图 10. 2 
所 示 。 


产品 特性 一 一 一 
服务 特性 ———— — 

预期 利润 期 望 的 客户 
交易 成 本 预期 成 本 价值 
生命 周期 | 
成 本 


风险 ”一 一 一 
10.2 客户 价值 特性 /成 本 模型 


从 企业 的 角度 而 言 ,客户 价值 是 指 客户 终生 价值 ,通常 由 历史 价值 .当前 价值 和 潜在 价 
值 三 部 分 构成 。 历 史 价 值 是 指 到 目前 为 止 已 经 实现 的 客户 价值 ; 当前 价值 是 指 如 果 客 户 当 
前 行为 模式 不 发 生 改 变 , 在 将 来 会 给 企业 带 来 的 客户 价值 ; 潜在 价值 是 指 如 果 企 业 通过 有 
效 地 交叉 销售 、 调 动 客 户 购 买 积 极 性 或 客户 向 别人 推荐 产品 和 服务 等 ,从 而 可 能 增加 的 客户 
价值 。 

企业 在 评价 客户 是 否 具有 价值 时 .不 仅 要 参考 客户 历史 价值 的 表现 ,更 重要 的 是 预测 其 
当前 价值 和 潜在 价值 的 表现 。 客 户 历 史 价 值 是 指 已 经 带 来 的 利润 ,是 企业 感知 客户 价值 的 
一 个 重要 方面 ; 客户 当前 价值 决定 了 企业 当前 的 一 利水 平 ; 客户 潜在 价值 关系 到 企业 的 长 
远 利润 ,是 直接 影响 企业 是 否 继续 投资 于 该 客户 的 一 个 重要 因素 。 

根据 客户 终生 价值 的 定义 ,1995 年 Angus Jenkison 给 出 其 通用 的 计算 公式 , 即 : 


T 
V—(G,—-COXQ-ciy" 20. D 
ize 


其 中 ,T 为 客户 的 生命 周期 ,R, 为 客户 在 第 年 给 企业 带 来 的 收益 (包括 货币 因素 和 非 
货币 因素 ),C 为 企业 为 其 投入 的 成 本 ,i 为 银行 贴现 率 。 对 于 客户 终生 价值 的 计算 ,企业 可 
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变 的 投入 成 本 是 影响 客户 终生 价值 的 重要 变量 ,而 客户 生命 周期 时 间 是 一 个 关键 参数 。 

对 于 历史 价值 、 当 前 价值 和 潜在 价值 都 可 以 通过 直接 计算 和 指标 评价 两 种 方法 得 到 。 
直接 计算 是 指 通过 严格 的 数学 计算 得 到 具体 数值 ; 指标 评价 是 指 通 过 相关 指标 的 评价 间接 
获得 评价 值 。 

参照 客户 终生 价值 并 结合 电信 和 客户 自身 特点 给 出 了 一 种 客户 历史 价值 、 当 前 价值 潜在 
价值 和 总 体 价值 的 计算 方法 ,分 别 如 式 (10.2) 一 式 (10.5) 所 示 。 


客户 历史 价值 为 
V, = RG) X ARPU -G — C, (10. 2) 
其 中 ,R(D) 是 客户 在 网 时 长 ,C; 是 均 摊 成 本 ,C* 是 个 人 维系 成 本 。 
客户 当前 价值 
V, = F3 x (F3/ARPU) X K X B (10. 3) 


其 中 ,F3 是 最 近 三 个 月 应 缴费 用 总 额 : K 为 价值 成 色 , 是 本 地 通话 与 长 途 和 漫游 话费 
的 比值 ,反映 话 务 结构 和 结算 成 本 ; B 为 价值 爆发 力 ,是 最 近 五 个 月 最 高 ARPU 值 与 
ARPU 均值 的 比值 。 


客户 潜在 价值 
V, = MJARPUX (1— LG) 十 M (10. 4) 
Wh LG die PU eO c HU IA MESE «M. 是 客户 的 协议 剩余 金额 。 
客户 总 体 价 值 
V —0.25 X (V, — Vu4)/SD(V4) +0. 5 X (V, — Vow)/SD(V.) 
十 0.25 X (V, — V,D/SD(V,) (10.5) 


客户 总 体 价值 是 客户 历史 、 当 前 和 潜在 价值 标准 化 后 的 加 权 平 均 , 其 中 Vua Vus 
Vpws 分 别 是 客户 历史 价值 、 当 前 价值 和 潜在 价值 的 均值 ; SD(CW ) SDV ORI SD(CV,) 分 别 是 
客户 历史 价值 、 当 前 价值 和 洪 在 价值 的 标准 差 。 


10.1.2 数据 准备 


为 了 维系 挽留 即将 到 期 的 COMA 合约 用 户 ,针对 不 同 客户 群 的 特征 实施 客户 细 分 ,并 
结合 电信 公司 市 场 部 门 的 营销 策略 提供 个 性 化 服务 ,减少 客户 流失 。 本 例 选 取 某 市 2007 年 
6 一 8 月 即将 到 期 的 CDMA 合约 用 户 资料 ,以 及 最 近 连 续 六 个 月 的 通话 详 单 和 出 账 费用 等 
相关 数据 作为 分 析 对 象 ,如 表 10. 2 所 示 。 


510.2 X 2007 年 6—8 月 即将 到 期 的 CDMA 合约 用 户 数量 


合约 到 期 的 期 限 用 户 数 
《年 /月 ) 在 网 正常 出 账 
2007/06 745 238 
2007/07 1545 1078 
2007/08 6135 3934 
合计 8425 5250 


HÆ 10. 2 可 知 ,2007 年 6 一 8 月 即将 到 期 的 COMA 合约 用 户 数 共计 8425 ,正常 出 账 的 
用 户 数 5250。 对 于 这 部 分 用 户 还 需要 进行 数据 清洗 ,以 剔除 下 列 无 效用 户 : 

CO 去 除 入 网 渠道 为 “员工 ”的 记录 ,因为 内 部 员工 并 非 研究 对 象 ,属于 噪声 数据 。 

(2) 去 除 孤 立 点 。 在 进行 客户 价值 聚 类 时 ,发 现 “ 当 月 平均 总 消费 ”为 1073 76.1060 元 
和 956 元 的 三 个 用 户 记录 使 得 聚 类 中 心 发 生 严 重 偏 移 , 去 除 后 聚 类 效果 良好 。 

(3) 在 进行 消费 行为 聚 类 时 ,发现 “平均 套餐 优惠 费 ” 中 存在 超大 值 , 去 除 其 中 个 别 的 离 
FHE. 

(4) 检测 某 项 消费 额 为 负 值 的 用 户 ,无 此 类 记录 存在 , 故 应 去 除 。 

(5) 在 进行 消费 行为 聚 类 的 变量 选择 时 ,由 于 漫游 一 项 只 有 漫游 计 费 次 数 ,而 其 他 是 以 
通话 次 数 来 衡量 ,随机 抽取 20% 的 数据 验证 平均 长 途 通话 次 数 与 平均 长 途 计 费 次 数 大 致 呈 
正比 关系 ,因此 把 漫游 计 费 次 数 也 作为 聚 类 分 析 的 一 个 变量 。 

去 除 上 述 * 噪 声 ” 后 ,针对 2007 年 6 一 8 月 即将 到 期 的 有 效 的 COMA 合约 用 户 4824 进 
行 客户 细 分 ,并 采用 Z Score 方法 进行 数据 标准 化 。 


11.1.3 ÆRE 


客户 细 分 的 建 模 过 程 如 下 : 
CD 利用 K-Means 聚 类 算法 ,根据 客户 价值 细 分 为 高 端 .中 高 端 .中 端 和 低 端 四 类 客户 
群 ,如 表 10. 3 所 示 。 


表 10.3 客户 价值 的 聚 类 结果 


类 别 gia 出 账 费用 明细 用 户 数 特征 描述 
主要 费用 项 (| 金额 (元 ) | sk 
漫游 费 267.37 | 47.3% 
本 地 话费 234. 89 41.596 " " 
MAS soci 长 途 话费 37. 94 6.7% Io a 
增值 费 13. 99 2.5% 
短信 费 31:2 2% 
主要 费用 项 | 金额 (元 ) | dk 
本 地 话费 132.95 | 47.5% 
漫游 费 101. 97 36.494 € 
中 高 端 客 户 279. 96 长 途 话费 is XD 569 “| 以 市 话 和 漫游 为 主 
增值 费 12. 64 4.5% 
LACE 7.97 2.9% 
主要 费用 项 | 金额 (元 ) | hk 
本 地 话费 71.76 49.3% 
漫游 费 47. 43 32.694 m 
中 端 客户 145. 69 长 途 话费 iar a6% 541 “| 以 市 话 为 主 和 漫游 为 畏 
增值 费 8.75 6% 
短信 费 5.28 3.5% 
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续 表 
类 l ns 出 账 费用 明细 用 户 数 特征 描述 
主要 费用 项 金额 (元 ) 占 比 
本 地 话费 15. 69 52.4% 
短信 费 4.53 15.1% 
低 端 客户 29.94 3606 | 以 市 话 和 短信 为 主 
增值 费 3.73 12.5% 
长 途 话 费 3.55 11.9% 
漫游 费 2. 44 8.196 
合计 4824 


由 图 10. 3 可 以 看 出 聚 类 效果 较为 显著 , 绝 大 多 数 很 集中 ,不 存在 极 值 ,只 有 个 别 的 孤立 
点 , 且 它 们 距离 聚 类 中 心 并 不 远 。 


o 
o 
750.00 上 
500.00 上 
E» e 
E 
i 
" 一 一 
250.00 上 人 
0.00. um Lnd iiie Sii 
低 端 客户 中 高 端 客户 MEP 中 端 客 户 
图 10.3 四 种 客户 群 的 客户 价值 分 布 


(2) 利用 K-means 聚 类 算法 ,根据 客户 消费 行为 ,如 月 均 基本 通话 费 、 月 均 长 途 费 、 月 均 
漫游 费 和 月 均 短 信 费 等 指标 聚 类 为 节约 型 .时 尚 型 .电话 型 .长 途 型 .短信 型 和 未 知 型 六 类 客 
户 群 ,如 表 10.4 和 图 10.4 所 示 。 


表 10.4 客户 消费 行为 的 聚 类 结果 


序号 类 别名 称 用 户 数 
1 节约 型 3703 
S 时 尚 型 (以 增值 .长途 、 漫 游 为 主 ) 20 
3 市 话 型 (以 市 话 长途、 漫游 为 主 ) 395 
4 长 途 型 189 
5 短信 型 185 
6 未 知 型 (其 他 费用 高 ) 332 

合计 4824 


REI | 聚 类 3 | 聚 类 6 | 聚 类 4 | RES | NOR 重要 性 (%) 
[ EDS 
Q z90 
[ EU 
A 未 知 


月 均 其 他 费 
es m - 三 


[S] 


[] * 
100 
月 均 基 本 | e 
amen 
通话 费 4 - - 国 L] 100 
月 均 增 值 
业务 费 | 总 
一 um um = = 
平均 月 租 费 | * 
100 
c — c — 


月 均 漫游 费 会 
- - li z 
月 均 短 信 费 ll * 
=Œ E 图 m L] 100 
月 均 长 途 费 * 
口 L LH L] 100 


图 10.4 客户 消费 行为 的 聚 类 结果 


(3) 利用 K-means 聚 类 算法 ,根据 客户 通话 行为 特征 ,如 月 均 本 地 通话 次 数 . 月 均 主 叫 
通话 次 数 .月 均 被 叫 通话 次 数 月 均 长 途 通话 次 数 . 月 均 IP 通话 次 数 、 月 均 漫游 计 费 次 数 和 
月 均 假 期 通话 次 数 指标 聚 类 为 极 少 型 .假期 型 ,长途 漫 游 型 .普通 型 和 IP 电话 型 五 类 客户 
群 ,如 表 10.5 和 图 10. 5 所 示 。 
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表 10.5 客户 通话 行为 的 聚 类 结果 


序号 类 别名 称 用 户 数 
极 少 型 3561 
2 假期 型 114 
3 长 途 漫游 型 249 
4 普通 型 806 
5 IP 电 话 型 94 

合计 4824 


聚 类 1 | 聚 类 4 | 聚 类 3 | 聚 类 2 | 聚 类 5 重要 性 (%) 
会 =05 
个 >=%0 
E <00 
EST 
Zscore( 月 均 IP * 
WERRED ”| _ Lo Lo o oa 100 
Zscore( 月 均 主 叫 * 
maux (n m H c 100 
Zscore( 月 均 假 期 * 
通话 次 数 ) 到 r1 [1 = 100 
Zscore( 月 均 本 地 e 
通话 次 数 ) - m = - = 100 
Zscore( 月 均 漫 游 * 
计 费 次 数 ) s a 100 
Zscore( 月 均 被 叫 e 
通话 次 数 ) - 口 m i 100 
Zscore( 月 均 长 途 由 e 
通话 次 数 ) = UD = 100 


图 10.5 客户 通话 行为 的 聚 类 结果 


(4) 汇总 上 述 聚 类 结果 ,如 表 10. 6 所 示 。 电 信 公 司 市 场 营 销 部 门 可 以 根据 不 同 客户 群 
的 价值 贡献 .消费 行为 特征 和 通话 行为 特征 推荐 适合 的 优惠 套餐 ,实现 个 性 化 服务 。 


510.6 聚 类 结果 的 汇总 
za 消费 行为 red 合计 
价值 极 少 型 | 假期 型 ee 普通 型 |IP 电 话 型 。“ 
用 户 数 2999 1 0 352 19 3371 
节约 型 消费 行为 占 比 89.0% | 0.0% | 0.0% | 10.4% | 0.6% 
通话 行为 占 比 93.796 |100.0% | 0.0% | 91.7% | 95.0% 
总 占 比 83.2% | 0.0% | 0.0% | 9.8% | 0.5% | 93.5% 
低 用 户 数 202 0 0 32 1 235 
E 短信 型 消费 行为 占 比 86.0% | 0.0% | 0.0% | 13.6% | 0.4% 
客 通话 行为 占 比 6.3% | 0.0% | 0.0% | 8.3% | 5.0% 
p 总 占 比 5.696 | 0.0296 | 0.0296 | 0.996 | 0.0% 6.5% 
用 户 数 3201 1 0 384 20 3606 
合计 消费 行为 占 比 88.8% | 0.0% | 0.0% | 10.6% | 0.626 | 100.0% 
2 通话 行为 占 比 100.0% | 100.0% | 0.0% | 100.026 | 100. 026 100% 
总 占 比 88.8% | 0.0% | 0.0% | 10.6% | 0.6% | 100.0% 
用 户 数 2 1 6 3 3 15 
节约 型 消费 行为 占 比 13.396 | 6.796 | 40.0% | 20.096 | 20.0% 
f 通话 行为 占 比 1.6% | 2.1% | 3.5% | 1.6% | 7.9% 
总 占 比 0.4% | 0.2% 1.1% | 0.5% | 0.5% 2.7% 
时 尚 型 用 户 数 4 0 5 2 0 11 
(增值 漫游 消费 行为 占 比 36.4% | 0.0% | 45.4% | 18.2% | 0.0% 
长 途 ) 通话 行为 占 比 3.3% | 0.0% | 2.9% 1.0% | 0.0% 
总 占 比 0.7% | 0.0% | 0.9% | 0.4% | 0.094 2.0% 
nm" 用 户 数 9 21 126 79 21 256 
ans» 消费 行为 占 比 3.5% | 8.2% | 49.296 | 30.996 | 8.2% 
ER) 通话 行为 占 比 7.496 | 43.796 | 74.196 | 41.496 | 55.2% 
总 占 比 1.6% | 3.796 | 22.196 | 13.996 | 3.796 | 45.0% 
中 
高 用 户 数 24 25 1 72 4 126 
m "me" 消费 行为 占 比 19.196 | 19.896 | 0.896 | 57.196 | 3.2% 
* 通话 行为 占 比 19.7% | 52.196 | 0.696 | 37.796 | 10.5% 
p 总 占 比 4.2% | 4.496 | 0.296 | 12.794 | 0.796 | 22.2% 
用 户 数 81 0 27 32 5 145 
未 知 型 消费 行为 占 比 55.9% | 0.0% | 18.6% | 22.1% | 3.4% 
(其 他 费用 高 ) | 通话 行为 占 比 66.4% | 0.0% | 15.9% | 16.7% | 13.2% 
总 占 比 14.2% | 0.0% | 4.7% | 5.6% | 0.9% | 25.4% 
用 户 数 2 1 5 3 5 16 
短信 型 消费 行为 占 比 12.596 | 6.2% | 31.3% | 18.7% | 31.394 
通话 行为 占 比 1.6% | 2.1% | 3.0% | 1.6% | 13.2% 
总 占 比 0.4% 0.2% 0.9% 0.5% 0.9% 2.9% 
用 户 数 122 48 170 191 38 569 
合计 消费 行为 占 比 21.496 8.4% | 29.996 | 33.694 6.7% | 100.096 
i 通话 行为 占 比 100.0% | 100.026 | 100.026 | 100.0% | 100. 0% 10026 
总 占 比 21.496 8.4% | 29.996 | 33.694 6.7% | 100.096 
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续 表 
客户 通话 行为 n 
价值 voids 极 少 型 | 假期 型 pera) 普通 型 | 电话 型 | 合计 
用 户 数 1 2 5 0 0 8 
时 尚 型 (增值 | 消费 行为 占 比 12.596 | 25.096 | 62.596 | 0.0% | 0.0% 
漫游 长 途 ) | 通话 行为 占 比 33.3% | 4.396 | 10.6296 | 0.0% | 0.0% 
总 占 比 0.9% 1.9% 4.6% 0.0% 0.0% 7.4% 
用 户 数 0 37 34 4 1 76 
市 话 型 (市 话 | 消费 行为 占 比 0.026 | 48.796 | 44.7% | 5.394 1.3% 
漫游 长 途 ) | 通话 行为 占 比 0.026 | 78.7% | 72.396 | 44.496 | 50.096 
总 占 比 0.026 | 34.3% | 31.5% | 3.796 | 0.996 | 70.494 
用 户 数 2 8 3 4 0 17 
"me" 消费 行为 占 比 11.826 | 47.196 | 17.696 | 23.596 | 0.096 
高 通话 行为 占 比 66.7% | 17.0296 | 6.496 | 44.496 | 0.096 
E 总 占 比 1.9% | 7.4% | 2.896 | 3.796 | 0.0% | 15.8% 
客 用 户 数 0 0 4 0 1 5 
P 未 知 型 消费 行为 占 比 0.026 | 0.026 | 80.0% | 0.0% | 20.096 
(其 他 费用 高 ) | 通话 行为 占 比 0.096 | 0.096 | 8.596 | 0.096 | 50.0% 
总 占 比 0.0% | 0.026 3.796 | 0.096 | 0.994 4.6% 
用 户 数 0 0 1 1 0 2 
短信 型 消费 行为 占 比 0.0% | 0.026 | 50.0% | 50.0% | 0.0% 
通话 行为 占 比 0.0% | 0.0% 2.1% | 11.1% | 0.0% 
总 占 比 0.026 | 0.0296 | 0.9296 | 0.9% | 0.0% 1.8% 
用 户 数 3 47 47 9 2 108 
合计 消费 行为 占 比 2.896 | 43.596 | 43.5% | 8.396 | 1.996 | 100.0% 
g 通话 行为 占 比 100.0% | 100.0% | 100.0% | 100.0% | 100.096 | 100% 
总 占 比 2.896 | 43.596 | 43.5% | 8.3% 1.9% | 100.0% 
10.1.4 结果 
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由 上 述 客 户 细 分 可 知 , 低 端 客户 群 的 消费 类 型 主要 集中 在 节约 型 (93. 5 0 和 短信 型 
(6. 5%) 两 种 ; 通话 行为 类 型 主要 集中 在 极 少 型 (88. 8%) 和 普通 型 (10.6%)。 且 其 中 绝 大 
部 分 的 客户 既是 节约 型 又 是 极 少 型 (83.2%), 此 外 还 有 9.8% 的 客户 非常 节约 ,基本 限于 本 
地 通话 ; 还 有 5.6% 的 客户 主要 使 用 短信 。 
中 端 客户 群 的 节约 型 和 普通 型 占 比 最 大 ,短信 一 族 次 之 。 从 消费 行为 特征 上 看 ,节约 型 
占 比 58.6% ,短信 型 占 比 15.6265. 从 通话 行为 特征 上 看 , 极 少 型 和 普通 型 分 别 占 4474 A 


41.496, 
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高 端 客 户 群 的 市 话 、 长 途 和 漫游 费用 占 比 很 高 。 从 消费 行为 特征 上 看 ,市 话 型 占 比 
70. 4% ,而 长 途 型 只 占 15.7%; 从 通话 行为 特征 上 看 ,假期 型 和 长 途 漫游 型 各 占 43. 5% , 因 
此 高 端 客 户 群 的 主要 价值 来 源 于 漫游 和 长 途 业 务 , 且 在 假期 客户 价值 尤其 高 。 


表 10.7 根据 消费 行为 和 通话 行为 聚 类 的 结果 


通话 行为 
消费 行为 合计 
极 少 型 | 假期 型 | 长 途 漫游 型 | 普通 型 | IP 电话 型 
用 户 数 3140 12 25 488 38 3703 
节约 型 消费 行为 占 比 84.8% | 0.3% 0.7% 13.2% 1.0% 
通话 行为 占 比 88.2% | 8.196 10.096 | 60.696 | 39.194 
总 占 比 65.2% | 0.294 0.596 | 10.2% 0.7% 76.8% 
时 尚 理 用 户 数 6 2 10 2 0 20 
"TM 消费 行为 占 比 30.0% |10.0% 50.0% 10.0% 0.0% 
游 长 途 ) 通话 行为 占 比 0.2% 1.8% 4.0% 0.2% 0.0% 
总 占 比 0.1% | 0.096 0. 254 0.0% 0.0% 0.4% 
市 话 型 用 户 数 25 61 172 109 28 395 
(市 话 温 消费 行为 占 比 6.3% |15.4% 43.6% 27.6% 7.1% 
游 长 途 ) 通话 行为 占 比 0.7% | 55.096 69.1% 13.5% | 30.4% 
总 占 比 0.59 | 1.3% 3.696 2.3% 0.6% 8.2% 
用 户 数 39 37 4 104 5 189 
长 途 型 消费 行为 占 比 20.6% |19.6% 2.19 55.196 2.694 
通话 行为 占 比 1.196 |33.396 1.6% 12.9% 5.4% 
总 占 比 0.8% | 0.8% 0.1% 2.2% 0.1% 3.9% 
用 户 数 111 0 32 34 8 185 
o 消费 行为 占 比 60.0% | 0.0% 17.396 | 18.4% 4.394 
jebm 通话 行为 占 比 3.1% | 0.0% 12.9% 4.2% 8.7% 
总 占 比 2.396 | 0.0% 0.7% 0.7% 0.2% 3.8% 
用 户 数 240 2 6 69 15 332 
消费 行为 占 比 72.396 | 0.696 1.896 | 20.894 4.594 
短信 型 2 
通话 行为 占 比 6.796 | 1.896 2.496 8.596 | 16.394 
总 占 比 5.096 | 0.0% 0.126 1.496 0.3% 6.9% 
用 户 数 3561 114 249 806 94 4824 
合计 消费 行为 占 比 73.996 | 2.3% 5.294 16.7% 1.9% 100. 0% 
通话 行为 占 比 100.0% |100. 0% 100.0% |100.0% | 100.0% 100.0% 
总 占 比 73.996 | 2.3% 5.2% | 16.796 1.996 100. 0% 


由 表 10. 7 可 知 ,节约 型 与 极 少 型 客户 几乎 一 一 对 应 ,包含 了 少量 的 普通 型 ; 时 尚 型 客 
户 除了 长 途 和 漫游 费用 较 高 外 ,还 有 很 大 一 部 分 增值 业务 的 费用 ,这 部 分 客户 数量 不 多 , 主 
要 集中 在 长 途 漫游 型 ;市话 型 客户 , 即 市 话 、 长 途 和 漫游 费用 均 很 高 的 客户 ,集中 在 长 途 漫 
游 型 ,还 有 一 部 分 普通 型 客户 ; 长 途 型 客户 有 一 半 是 普通 型 ,还 有 少量 的 极 少 型 和 假期 型 用 
户 ; 未 知 型 客户 其 他 费用 极 高 , 且 客 户 数 不 在 少数 ,60% 的 客户 是 极 少 型 , 据 推测 其 他 费用 
可 能 是 使 用 了 数字 业务 导致 语音 业务 很 少 的 客户 反而 其 他 费用 高 ; 短信 型 客户 大 部 分 来 源 
于 节约 型 ,还 有 20. 8% 的 普通 型 ,与 实际 情况 相符 。 

从 通话 行为 上 看 , 极 少 型 对 应 节约 型 ,假期 型 对 应 时 尚 型 和 长 途 型 ,长 途 漫 游 型 对 应 市 
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话 型 ,普通 型 对 应 节约 型 ,IP 市 话 型 对 应 市 话 型 和 节约 型 。 
综 上 所 述 , 某 市 2007 年 6 一 8 月 即将 到 期 CDMA 合约 客户 细 分 结果 如 表 10. 8 所 示 。 


表 10.8 某 市 2007 年 6 一 8 月 即将 到 期 CDMA 合约 客户 细 分 结果 


序号 | 类 别名 称 特征 描述 用 户 数 营销 策略 

1 | 节省 型 短信 量 大 ,电话 量 少 3450 | 短信 优惠 

2 | 均衡 型 被 叫 明显 多 于 主 叫 , 各 业务 费用 均衡 | 737 | 被 叫 优惠 ,各 种 业务 绑 定 优惠 

3 [KEN 长 途 费用 高 ,几乎 无 漫游 费用 189 | 长 途 优惠 

4 | 市 话 长 途 漫 游 型 市话, 长途 、 漫 游 费用 均 高 209 | "nane 

5 | 增值 长 途 漫 游 型 | 用 户 群 小 ,增值 费用 高 20 | 可 不 考虑 或 归 人 第 4 类 

6 | 假期 型 假期 时 各 项 费用 均 高 114 | 针对 假期 时 段 的 综合 优惠 

此 外 ,4824 客户 中 选择 各 种 “校园 套餐 ”的 用 户 数 是 2920, 占 60. 5% ,他 们 大 多 数 为 低 

端 客户 ,其 通话 行为 特征 表现 为 节省 型 ,月 均 消 费 小 于 50 元 ; 选择 各 种 “商旅 套餐 ”的 客户 
数 是 1090, 约 占 22.6% ,他 们 大 多 数 为 高 端 和 中 高 端 客户 ,其 通话 行为 特征 表现 为 市 话 长 途 


漫游 型 或 市 话 型 ,月 均 消费 大 于 370 元 。 这 两 类 客户 群 在 消费 行为 特征 和 通话 行为 特征 方 
面 差异 较 明显 , 占 83% 以 上 ,建议 进行 重点 维 挽 。 分 析 中 还 可 看 出 漫游 业务 较 多 的 客户 长 
途 业 务 也 多 ,可 针对 市 话 长 途 漫游 型 和 增值 长 途 漫游 型 推出 组 合 业务 ,或 针对 二 者 共同 推出 
长 途 漫游 绑 定 业 务 。 


10.2 重 入 网 识别 


10.2.1 定义 


重 入 网 是 指 已 经 拥有 或 曾经 拥有 某 一 家 电信 运营 商 的 一 张 SIM 卡 ( 又 称 用 户 识别 卡 》 
的 情况 下 ,重新 在 本 地 或 本 省 其 他 地 区 购买 新 的 同一 运营 商 的 SIM 卡 , 新 卡 部 分 或 者 全 部 
替代 旧 卡 功能 。 

由 于 市 场 竞争 日 趋 激烈 ,以 及 增 量 市 场 趋 于 饱和 , 重 入 网 现象 日 趋 严重 ,比例 也 越 来 
越 高 。 重 入 网 造成 的 卡号 资源 浪费 、 欠 费 等 后 果 直 接 导 致 运营 商 营 销 成 本 的 增加 和 业务 
收入 的 下 滑 。 因 此 ,控制 重 入 网 比例 ,有 效 降低 重信 网 带 来 的 运营 成 本 和 风险 ,目前 已 经 成 
为 运营 商 面临 的 难题 , 重 入 网 识别 正 是 在 这 样 的 背景 下 应 运 而 生 , 其 应 用 价值 在 于 为 代理 商 
佣金 政策 动态 调整 和 绩效 考核 提供 科学 依据 ,提高 维系 挽留 的 精确 度 和 维系 成 本 使 用 的 有 
效 性 。 


10.2.2 数据 准备 


数据 准备 主要 是 选择 合适 的 数据 源 ,整理 分 析 所 需 的 各 种 数据 ,包括 通话 、 消 费 、 欠 费 和 
客服 等 ,对 原始 数据 进行 检查 和 预 处 理 , 生 成 新 的 衍生 变量 ,并 整理 出 适合 分 析 使 用 的 数据 


宽 表 。 一 方面 尽量 确保 数据 的 完整 性 ; 另 一 方面 剔除 元 余 ,减少 噪声 。 

根据 业务 需求 选取 某 市 2008 年 9 月 流失 的 CDMA 客户 45 537 和 2008 年 9 一 10 月 两 
个 月 新 发 展 的 CDMA HIP 135 638 作为 分 析 对 象 。 从 ODS 系统 和 业务 支撑 系统 抽取 大 量 
通话 详 单 、 客 户 资料 和 出 账 等 数据 ,按照 客户 ID 进行 汇总 和 合并 ,生成 一 张 数据 宽 表 ,其 中 
每 行 代表 一 个 客户 ,每 列 代 表 一 个 变量 。 数 据 宽 表 如 表 10.9 所 示 。 


表 10.9 数据 宽 表 

类 别 列 名 称 列 类 型 列 描 xk 
CUST ID CHAR(20) 客户 ID 
GENDER CHAR(1) 性 别 
AGE NUMERIC 年 龄 

al IS LOC CHAR(D 是 否 本 地 居民 
NUM OF USERS NUMERIC 客户 对 应 的 用 户 总 数 
DATE DATE 统计 日 期 
ACC_DATE DATE 出 账 日 期 
USER_ID CHAR(15) 用 户 ID 
PIN CHAR(15) 号 码 
VIP_TYPE CHAR(2) 用 户 价值 
PAY_MODE CHAR(2) 用 户 付费 方式 
HANDSET_MODEL CHAR(20) 用 户 手机 类 型 
MANUFACTURER CHAR(20) 用 户 手 机 厂家 
IMEI CHAR(15) 用 户 手机 IMEI 串 号 
COLLECT_MODE CHAR(OD 催 缴 模式 
SVC ID CHAR(5) 业务 类 型 
INNET_LOC CHAR(4) 入 网 地 区 

ial DEPT NO CHAR(4) 部 门 编码 
INNET_CHANNEL CHAR(C1) 入 网 渠道 
SALE_TYPE CHAR(2) 销售 模式 
CALL_LOC CHAR(4) 当前 活动 区 域 
CALL_LOC_LST CHAR(4) 上 次 活动 区 域 
INNET_AGE NUMERIC 入 网 年 龄 
INNET_DATE DATE 入 网 日 期 
Tenure_IN_M NUMERIC 在 网 时 长 (月 ) 
ARPU NUMERIC ARPU 
MOU NUMERIC MOU 
ARPM NUMERIC ARPM 
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续 表 

类 别 列 名 称 列 类 型 P») 描 xk 
PLAN INIT CHAR(5) 初始 套餐 
PLAN_LAST CHAR(5) 最 近 套 餐 
PLAN_CURR CHAR(5) 当前 套餐 
PLAN_CHG_CNT NUMERIC 套餐 变动 总 数 
CONS_DUE_DATE DATE 当前 承诺 到 期 日 
IS CONS OVER CHAR(1) 是 否 已 经 承诺 到 期 
IS_CONS_DUE CHAR(1) 是 否 当月 承诺 到 期 
CONS_TYPE CHAR(3) 承诺 类 型 
CONS CHG NUMERIC 是 否 有 承诺 话费 
HANDSET_FREE CHAR(20) 承诺 是 否 赠送 手机 
HANDSET_PRICE NUMERIC 承诺 赠送 手机 价值 
DINNER_SPEC CHAR(5) 特 服 套餐 
RENT_PACKAGE NUMERIC 套餐 租 费 
IS_OVR_LMT CHAR(1) 是 否 超过 资费 套餐 定量 
RAT_OVR_LMT NUMERIC 超过 资费 套餐 定量 部 分 与 定量 的 比例 
TIME_TO_LST_PLN NUMERIC 距 最 近 一 次 套餐 变更 的 时 间 
PLAN_PRICE CHAR(1) 套餐 价位 

gs VOC PACKAGE NUMERIC 包月 话费 

VAS_PACKAGE NUMERIC 包月 特 服 
SMS_PACKAGE NUMERIC 包月 短信 
PLAN_UTIL NUMERIC 套餐 使 用 度 ( 针 对 定额 或 包月 套餐 ) 
AVG. SMS CHG NUMERIC 平均 每 条 短信 费用 
AVG PEAK CALL CHG NUMERIC 平均 每 分 钟 忙 时 呼出 费用 
AVG OFPK CALL CHG NUMERIC 平均 每 分 钟 闲 时 呼出 费用 
AVG PEAK CALL CHG NUMERIC 平均 每 分 钟 忙 时 呼 人 费用 
AVG_OFPK_CALL_CHG NUMERIC 平均 每 分 钟 闲 时 呼 人 费用 
IS COMP PLAN CHAR(1) 套餐 是 否 针对 竞争 对 手 推 出 
IS_LV_PLAN CHAR(1) 套餐 是 否 针对 低 端 人 群 
IS_HV_PLAN CHAR(1) 套餐 是 否 针对 高 端 人 群 
IS_LD_PLAN CHAR(1) 套餐 是 否 针对 长 途 业 务 优惠 
IS_RM_PLAN CHAR(OD 套餐 是 否 针对 漫游 业务 优惠 
IS_IN_PLAN CHAR(QD 套餐 是 否 针对 接听 优惠 
IS_SMS_PLAN CHAR(1) 套餐 是 否 针对 短信 优惠 
IS_VAS_PLAN CHAR() 套餐 是 否 针对 增值 服务 优惠 
HANDSET_BIND CHAR(20) 套餐 是 否 绑 定 话机 


续 表 


类 别 列 名 称 列 类 型 P) 描 xk 
PAY TYPE CHAR(2) 缴费 渠道 
STATUS_CODE CHAR(3) 账户 状态 
DUE CHARGE NUMERIC 当月 应 缴 金额 
CROSS CHG NUMERIC 结算 费用 总 额 
ACT PAID NUMERIC 当月 实 缴 金 额 
RENT_FEE NUMERIC 租 费 
MOBILE FEE NUMERIC 本 地 通话 费 
LONG FEE NUMERIC 本 地 国内 长 途 费 
INTLONG FEE NUMERIC 本 地 国际 长 途 费 
ROAM FEE NUMERIC 漫游 费 

账户 | ROAM_INTLONG_FEE NUMERIC 漫游 国际 长 途 费 

信息 | ROAM LONG FEE NUMERIC 漫游 国内 长 途 费 
DATA_FEE NUMERIC 数据 业务 费 
INCREMENT FEE NUMERIC 增值 业务 费 
SMS_FEE NUMERIC 点 对 点 短信 费 
SPECIAL_FEE NUMERIC 特 服 业务 费 
MON_FEE NUMERIC 包月 费 
OTHER_FEE NUMERIC 其 他 费 
SP_FEE NUMERIC SP 业务 费 
CONSENT_FEE NUMERIC 最 低 承 诺 应 收费 
DELQ_CNT_CURR NUMERIC 本 次 欠 费 持续 时 间 
DELQ_AMT_CURR NUMERIC 本 次 欠 费 总 额 
AVG PAY NUMERIC 月 均 缴费 额 
TOTAL_PAY NUMERIC 缴费 总 额 
DELQ CNT EVER NUMERIC 累计 欠 费 次 数 
DELQ HALT CNT EVER NUMERIC 累计 欠 费 停机 次 数 
PIN CHAR(15) 号 码 
CALL_LENGTH NUMERIC 通话 时 长 
CALL_CNT NUMERIC 通话 次 数 
CALL CHG NUMERIC 通话 费用 
FREE_LENGTH NUMERIC 免费 通话 时 长 
FREE_CNT NUMERIC 免费 通话 次 数 

行为 | IN_CALL_LENGTH NUMERIC 呼 人 通话 时 长 

信息 LIN_CALL_CNT NUMERIC 呼 人 通话 次 数 
IN_CALL CHG NUMERIC 呼 入 通话 费用 
OUT_CALL_LENGTH NUMERIC 呼出 通话 时 长 
OUT_CALL_CNT NUMERIC 呼出 通话 次 数 
OUT CALL CHG NUMERIC 呼出 通话 费用 
IN FREE LENGTH NUMERIC 呼 人 免费 通话 时 长 
IN_FREE_CNT NUMERIC 呼 入 免费 通话 次 数 
OUT FREE LENGTH NUMERIC 呼出 免费 通话 时 长 
OUT FREE CNT NUMERIC 呼出 免费 通话 次 数 
IN_PK_CALL_LENGTH NUMERIC 忙 时 呼 入 通话 时 长 
IN_PK_CALL_CNT NUMERIC 忙 时 呼 入 通话 次 数 
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续 表 

类 别 列 名 称 列 类 型 列 描 xk 
IN PK CALL CHG NUMERIC 忙 时 呼 入 通话 费用 
OUT PK CALL LENGTH | NUMERIC 忙 时 呼出 通话 时 长 
OUT PK CALL CNT NUMERIC 忙 时 呼出 通话 次 数 
OUT PK CALL CHG NUMERIC 忙 时 呼出 通话 费用 
IN OP CALL LENGTH NUMERIC 闲 时 呼 入 通话 时 长 
IN OP CALL CNT NUMERIC 闲 时 呼 人 通话 次 数 
IN OP CALL CHG NUMERIC 闲 时 呼 入 通话 费用 
OUT OP CALL LENGTH | NUMERIC 闲 时 呼出 通话 时 长 
OUT OP CALL CNT NUMERIC 闲 时 呼出 通话 次 数 
OUT OP CALL CHG NUMERIC 闲 时 呼出 通话 费用 
PK_CALL_LENGTH NUMERIC 忙 时 通话 时 长 
PK_CALL_CNT NUMERIC 忙 时 通话 次 数 
PK_CALL_CHG NUMERIC 忙 时 通话 费用 
OP_CALL LENGTH NUMERIC 闲 时 通话 时 长 
OP_CALL_CNT NUMERIC 闲 时 通话 次 数 
OP_CALL_CHG NUMERIC 闲 时 通话 费用 
PK FREE LENGTH NUMERIC 忙 时 免费 通话 时 长 
PK_FREE_CNT NUMERIC 忙 时 免费 通话 次 数 
OP_FREE_LENGTH NUMERIC 闲 时 免费 通话 时 长 
OP_FREE_CNT NUMERIC 闲 时 免费 通话 次 数 
WK CALL LENGTH NUMERIC 平时 通话 时 长 

行为 | WK_CALL_CNT NUMERIC 平时 通话 次 数 

信息 | WK CALL CHG NUMERIC 平时 通话 费用 
HL_CALL_LENGTH NUMERIC 假日 通话 时 长 
HL_CALL_CNT NUMERIC 假日 通话 次 数 
HL CALL CHG NUMERIC 假日 通话 费用 
LOC_CALL_LENGTH NUMERIC 区 内 通话 时 长 
LOC_CALL_CNT NUMERIC 区 内 通话 次 数 
LOC_CALL_CHG NUMERIC 区 内 通话 费用 
DD_CALL_LENGTH NUMERIC 内 长 途 通话 时 长 
DD_CALL_CNT NUMERIC 国内 长 途 通话 次 数 
DD_CALL_CHG NUMERIC 内 长 途 通话 费用 
IDD_CALL_LENGTH NUMERIC 际 长 途 通话 时 长 
IDD_CALL_CNT NUMERIC 际 长 途 通话 次 数 
IDD CALL CHG NUMERIC 际 长 途 通话 费用 
DD_PK_CALL_LENGTH NUMERIC 内 长 途 忙 时 通话 时 长 
DD_PK_CALL_CNT NUMERIC 内 长 途 忙 时 通话 次 数 
DD_OP_CALL_LENGTH NUMERIC 国内 长 途 闲 时 通话 时 长 
DD_OP_CALL_CNT NUMERIC 国内 长 途 闲 时 通话 次 数 
DD_WK_CALL_LENGTH NUMERIC 国内 长 途 平时 通话 时 长 
DD_WK_CALL_CNT NUMERIC 内 长 途 平时 通话 次 数 
DD_HL_CALL_LENGTH NUMERIC 国内 长 途 假日 通话 时 长 
DD_HL_CALL_CNT NUMERIC 国内 长 途 假日 通话 次 数 
IDD PK CALL LENGTH NUMERIC 国际 长 途 忙 时 通话 时 长 


续 表 


类 别 列 名 称 列 类 型 列 描 xk 
IDD_PK_CALL_CNT NUMERIC 国际 长 途 忙 时 通话 次 数 
IDD_OP_CALL_LENGTH NUMERIC 国际 长 途 闲 时 通话 时 长 
IDD OP CALL_CNT NUMERIC 际 长 途 闲 时 通话 次 数 
IDD WK CALL LENGTH | NUMERIC 际 长 途 平时 通话 时 长 
IDD WK CALL CNT NUMERIC 际 长 途 平时 通话 次 数 
IDD_HL_CALL_LENGTH NUMERIC 际 长 途 假日 通话 时 长 
IDD_HL_CALL_CNT NUMERIC 国际 长 途 假日 通话 次 数 
DDA_PK_CALL_LENGTH NUMERIC 长 途 忙 时 通话 时 长 
DDA PK CALL _ CNT NUMERIC 长 途 忙 时 通话 次 数 
DDA_OP_CALL LENGTH NUMERIC 长 途 闲 时 通话 时 长 
DDA OP CALL CNT NUMERIC 长 途 闲 时 通话 次 数 
DDA WK CALL LENGTH | NUMERIC 长 途 平时 通话 时 长 
DDA_WK_CALL_CNT NUMERIC 长 途 平时 通话 次 数 
DDA HL CALL LENGTH | NUMERIC 长 途 假日 通话 时 长 
DDA HL CALL CNT NUMERIC 长 途 假日 通话 次 数 
DDA_CALL_LENGTH NUMERIC 长 途 通话 时 长 
DDA_CALL_CNT NUMERIC 长 途 通话 次 数 
DDA CALL CHG NUMERIC 长 途 通话 费用 
RM_CALL_LENGTH NUMERIC 内 漫游 通话 时 长 
RM CALL CNT NUMERIC 内 漫游 通话 次 数 
RM CALL CHG NUMERIC 国内 漫游 通话 费用 

行为 | IRM CALL LENGTH NUMERIC 际 漫游 通话 时 长 

信息 | IRM_CALL_CNT NUMERIC 际 漫游 通话 次 数 
IRM_CALL_CHG NUMERIC 际 漫游 通话 费用 
RMA_CALL_LENGTH NUMERIC 漫游 通话 时 长 
RMA CALL CNT NUMERIC 漫游 通话 次 数 
RMA CALL CHG NUMERIC 漫游 通话 费用 
MBX_CNT NUMERIC 语音 信箱 /移动 秘书 次 数 
VAS_CNT NUMERIC 增值 服务 次 数 
VAS CHG NUMERIC 增值 服务 费用 
HVAS_CNT NUMERIC 高 额 增值 服务 次 数 
HVAS CHG NUMERIC 高 额 增 值 服务 费用 
SMS_CNT NUMERIC SMS 次 数 
SMS_CHG NUMERIC SMS 费用 
SMS CP CNT NUMERIC 发 向 竞争 对 手 的 SMS 次 数 
SP_CNT NUMERIC SP 次 数 
SP_CHG NUMERIC SP 费用 
EBIZ_CNT NUMERIC 电子 商务 次 数 
EBIZ CHG NUMERIC 电子 商务 费用 
VH_CALL_CNT NUMERIC 高 额 呼叫 次 数 
VL_CALL_CNT NUMERIC 特长 呼叫 次 数 
L CALL CNT NUMERIC 长 时 呼叫 次 数 
M CALL CNT NUMERIC 一 般 呼叫 次 数 
S_CALL_ CNT NUMERIC 短 时 呼叫 次 数 
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续 表 
类 别 列 名 称 列 类 型 列 描 述 
VS_CALL_CNT NUMERIC 超 短 话 单 次 数 
VL_FREE_CNT NUMERIC 特长 免费 呼叫 次 数 
L_FREE_ CNT NUMERIC 长 时 免费 呼叫 次 数 
M_FREE_CNT NUMERIC 一 般 免 费 呼 叫 次 数 
S_FREECNT NUMERIC 短 时 免费 呼叫 次 数 
VS_FREE_CNT NUMERIC 超 短 免费 话 单 次 数 
LOC_VH_CALL CNT NUMERIC 区 内 高 额 呼叫 次 数 
LOC VL CALL CNT NUMERIC 区 内 特长 呼叫 次 数 
LOC L CALL CNT NUMERIC 区 内 长 时 呼叫 次 数 
LOC_M_CALL_CNT NUMERIC 区 内 一 般 呼 叫 次 数 
LOC_S_CALL_CNT NUMERIC 区 内 短 时 呼叫 次 数 
LOC_VS_CALL_CNT NUMERIC 区 内 超 短 话 单 次 数 
DDA_VH_CALL_CNT NUMERIC 长 途 高 额 呼叫 次 数 
DDA_VL_CALL_CNT NUMERIC 长 途 特长 呼叫 次 数 
DDA_L_CALL_CNT NUMERIC 长 途 长 时 呼叫 次 数 
DDA_M_CALL_CNT NUMERIC 长 途 一 般 呼叫 次 数 
DDA_S_CALL_CNT NUMERIC 长 途 短 时 呼叫 次 数 
DDA_VS_CALL_CNT NUMERIC 长 途 超 短 话 单 次 数 
RMA_VH_CALL CNT NUMERIC 漫游 高 额 呼叫 次 数 
RMA_VL_CALL_CNT NUMERIC 漫游 特长 呼叫 次 数 
RMA L CALL CNT NUMERIC 漫游 长 时 呼叫 次 数 
行为 | RMA_M_CALL_CNT NUMERIC 漫游 一 般 呼叫 次 数 
信息 | RMA_S_CALL_CNT NUMERIC 漫游 短 时 呼叫 次 数 
RMA_VS_CALL_CNT NUMERIC 漫游 超 短 话 单 次 数 
PK_VH_CALL_CNT NUMERIC 忙 时 高 额 呼叫 次 数 
PK_VL_CALL_CNT NUMERIC 忙 时 特长 呼叫 次 数 
PK_L_CALL_CNT NUMERIC 忙 时 长 时 呼叫 次 数 
PK_M_CALL_CNT NUMERIC 忙 时 一 般 呼 叫 次 数 
PK_S_CALL_CNT NUMERIC 忙 时 短 时 呼叫 次 数 
PK_VS_CALL_CNT NUMERIC 忙 时 超 短 话 单 次 数 
OP_VH_CALL_CNT NUMERIC 闲 时 高 额 呼叫 次 数 
OP_VL_CALL_CNT NUMERIC 闲 时 特长 呼叫 次 数 
OP_L_CALL_CNT NUMERIC 闲 时 长 时 呼叫 次 数 
OP_M_CALL_CNT NUMERIC 闲 时 一 般 呼 叫 次 数 
OP S CALL CNT NUMERIC 闲 时 短 时 呼叫 次 数 
OP. VS CALL CNT NUMERIC 闲 时 超 短 话 单 次 数 
HL VH CALL CNT NUMERIC 假日 高 额 呼叫 次 数 
HL_VL_CALL_CNT NUMERIC 假日 特长 呼叫 次 数 
HL L CALL CNT NUMERIC 假日 长 时 呼叫 次 数 
HL M CALL CNT NUMERIC 假日 一 般 呼叫 次 数 
HL S CALL CNT NUMERIC 假日 短 时 呼叫 次 数 
HL_VS_CALL_CNT NUMERIC 假日 超 短 话 单 次 数 
IP_CALL_LENGTH NUMERIC IP 长 途 通话 时 长 
IP CALL CNT NUMERIC IP 长 途 通话 次 数 


续 表 


类 别 列 名 称 列 类 型 列 描 述 
IP_CALL_CHG NUMERIC IP 长 途 通 话费 用 
IP_DD_CALL_LENGTH NUMERIC IP 国内 长 途 通话 时 长 
IP_DD_CALL_CNT NUMERIC IP 国内 长 途 通话 次 数 
IP_DD_CALL_CHG NUMERIC IP 国内 长 途 通话 费用 
IP IDD CALL LENGTH NUMERIC IP 国际 长 途 通话 时 长 
IP_IDD_CALL_CNT NUMERIC IP 国际 长 途 通话 次 数 
IP IDD CALL CHG NUMERIC IP 国际 长 途 通话 费用 
FW LENGTH NUMERIC 呼 转 到 固 话 通话 时 长 
FW_CNT NUMERIC 呼 转 到 固 话 通话 次 数 
FW_CHG NUMERIC 呼 转 到 固 话 通话 费用 
XFW_LENGTH NUMERIC 呼 转 到 小 灵通 通话 时 长 
XFW CNT NUMERIC 呼 转 到 小 灵通 通话 次 数 
XFW CHG NUMERIC 呼 转 到 小 灵通 通话 费用 

,| CFW.LENGTH NUMERIC 呼 转 到 竞争 对 手 号 码 通话 时 长 

行为 | CEW_CNT NUMERIC — | 呼 转 到 竞争 对 手 号 码 通话 次 数 

CFW CHG NUMERIC 呼 转 到 竞争 对 手 号 码 通话 费用 
FWA_LENGTH NUMERIC 呼 转 通话 时 长 
FWA_CNT NUMERIC 呼 转 通话 次 数 
FWA CHG NUMERIC 呼 转 通 话费 用 
CC_LENGTH NUMERIC 呼叫 竞争 对 手 客服 号 通话 时 长 
CC_CNT NUMERIC 呼叫 竞争 对 手 客服 号 通话 次 数 
AVG_SLP_LENGTH NUMERIC 平均 睡眠 时 间 
MAX_SLP_LENGTH NUMERIC 最 长 睡眠 时 间 
AVG DDA SLP LENGTH | NUMERIC 长 途 平均 睡眠 时 间 
AVG DDA SLP LENGTH | NUMERIC 长 途 最 长 睡眠 时 间 
AVG_LOC_SLP_LENGTH NUMERIC 区 内 通话 平均 睡眠 时 间 
AVG_LOC_SLP_LENGTH NUMERIC 区 内 通话 最 长 睡眠 时 间 
AVG_SMS_SLP_LENGTH NUMERIC SMS 平均 睡眠 时 间 
AVG_SMS_SLP_LENGTH NUMERIC SMS 最 长 睡 眼 时 间 

10.2.3 ZRNE 


重 入 网 识别 主要 包括 基于 IMEI 串 号 和 基于 呼叫 指纹 两 种 方法 。IMEI(CJInternational 
Mobile Equipment Identity, 国 际 移动 设备 辨识 码 ) 是 由 15 位 数字 组 成 的 “电子 串 号 ”, 与 每 
人 台 手 机 一 一 对 应 ,而 且 是 全 球 唯一 的 。 每 一 部 手机 在 组 装 完 毕 后 都 被 赋予 一 个 全 球 唯一 的 
一 组 号 码 , 这 个 号 码 从 生产 到 交付 使 用 都 将 被 生产 制造 的 厂商 所 记录 。 但 是 ,由 于 种 种 原因 
目前 大 多 数 CDMA 用 户 (WAP 用 户 除外 ) 无 法 获取 IMEI 串 号 。 此 外 ,一 些 水 货 手 机 的 
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IMEI 串 号 无 效 等 原因 ,无 法 完全 通过 IMEI 串 号 识别 重 和 网。 通常 情况 下 ,基于 IMEI 串 
号 和 基于 呼叫 指纹 两 种 方法 联合 使 用 ,以 确保 重 入 网 识别 的 准确 率 。 所 谓 “ 呼 叫 指纹 ”是 
指 用 户 在 使 用 运营 商 的 产品 和 服务 过 程 中 所 产生 的 交往 圈 、 呼 叫 特征 、 短 信 特征 \ 位 置 特 
征 、 客 服 特征 和 终端 特征 等 。 由 于 这 些 信息 对 于 一 个 用 户 而 言 是 相对 稳定 的 , 且 不 同 用 
户 之 间 具 有 和 较 大 差异 ,因此 可 用 于 识别 重 入 网 。 基 于 呼叫 指纹 的 重 入 网 识别 是 根据 历史 
用 户 已 经 发 生 过 的 通话 行为 ,经 过 科学 分 析 , 从 通话 呼叫 行为 中 发 现 用 户 通话 习惯 .通话 
行为 和 通话 交际 圈 等 特征 ,利用 这 些 显 著 特 征 标识 用 户 ,建立 用 户 的 呼叫 行为 档案 ,如 同 
用 户 的 “指纹 ”一 样 ,每 个 用 户 的 呼叫 行为 都 不 尽 相同 。 通 过 广泛 的 用 户 呼 叫 行为 分 析 ， 
建立 呼叫 指纹 库 。 在 识别 重 入 网 时 ,首先 在 新 发 展 用 户 群 中 过 滤 出 疑似 重 入 网 用 户 , 然 
后 对 疑似 用 户 进行 呼叫 行为 分 析 , 同 样 可 以 获得 用 户 呼叫 行为 特征 ,将 新 的 呼叫 行为 特 
征 纳入 已 经 建立 的 呼叫 指纹 库 ,通过 对 比 新 旧 呼 叫 指纹 的 相似 度 , 判 断 疑似 用 户 是 否 为 
重 入 网 用 户 。 

基于 呼叫 指纹 的 重 入 网 识别 的 建 模 过 程 如 下 : 

1. 确定 待 匹配 用 户 和 新 入 网 用 户 清单 

呼叫 指纹 识别 需要 建立 新 人 网 用 户 群 和 待 匹 配 用 户 群 两 个 数据 集 。 

2. 选择 特征 变量 和 数据 清洗 

首先 筛选 合适 的 特征 变量 , 表 10. 10 列 出 了 部 分 关键 指标 。 


R10.10 重 入 网 识别 的 特征 变量 
序号 指标 名 称 


前 10 个 最 频繁 通话 号 码 重 合 率 


前 10 个 最 长 的 总 通话 时 长 号 码 重合 率 


1 

2 

3 前 10 个 最 长 的 单 次 通话 时 长 号 码 重合 率 

4 前 10 个 总 通话 次 数 最 多 号 码 重合 率 

5 前 10 个 点 对 点 发 送 短信 最 频繁 号 码 的 重合 率 
6 

7 

8 

9 


点 对 点 短信 次 数 的 变异 率 
通话 小 区 数 的 变异 率 

本 网 交际 圈 人 数 的 重合 率 

他 网 交际 圈 人 数 的 变异 率 

10 前 10 个 最 频繁 通话 时 段 的 重合 率 


3. 建立 呼叫 指纹 库 
建立 呼叫 指纹 库 的 关键 是 筛选 出 可 以 辨别 不 同 用 户 身份 的 特征 号 码 库 , 并 逐一 计算 其 
权重 , 即 建 立 特征 号 码 权 重 库 。 首 先 ,统计 用 户 拨打 的 所 有 特征 电话 号 码 的 频次 ,从 高 到 低 
排序 , 吻 除 拨打 频次 最 高 的 一 部 分 公共 号 码 以 及 拨打 频次 最 低 的 一 部 分 稀 玖 号 码 , 这 些 号 码 
对 于 区 分 用 户 的 呼叫 指纹 没有 实际 意义 ; 然后 ,对 剩余 的 特征 号 码 赋予 不 同 的 权重 ,建立 特 
征 号 码 权 重 库 。 特 征 号 码 权 重 的 计算 采用 TFIDF 算法 。 

重 入 网 识别 引入 TFIDF 算法 的 优势 在 于 随 着 用 户 拨打 特征 号 码 次 数 的 增加 , 即 随 
着 用 户 拨 打 相同 的 特征 号 码 次 数 的 增加 , 则 tf(z;,d) 的 值 增加 ,该 特征 号 码 的 权重 将 增加 ， 


这 与 我 们 通常 的 理解 一 致 ; 如 果 该 特征 号 码 被 许多 用 户 所 拨打 , 则 idf(z;) 的 值 反而 减 小 ， 
特征 号 码 的 权重 将 减 小 ,表明 该 特征 号 码 对 辨别 用 户 身份 的 作用 将 减 小 ,这 是 因为 如 果 
该 特征 号 码 也 被 其 他 用 户 频繁 地 拨打 ,如 公共 号 码 , 则 其 分 辨 个 体 特 征 的 能 力 相 对 减弱 ， 
所 以 其 权重 应 当 减 小 ,以 便 使 那些 更 能 分 辨 用 户 是 否 具有 相似 呼叫 指纹 的 特征 号 码 的 权 
重 相应 增 大 。 

采用 TFIDF 算法 在 一 定 程度 上 减少 了 “噪声 ”号 码 对 判别 准确 度 的 影响 ,突出 重要 的 特 
征 号 码 ,同时 又 考虑 了 整个 呼叫 指纹 库 呼叫 特征 之 间 的 关系 。 因 此 如 果 样 本 量 足 够 ,最 终 重 
入 网 识别 具有 较 高 的 准确 率 。 

4. 计算 呼叫 指纹 相似 度 

呼叫 指纹 相似 度 是 指 新 人 网 用 户 与 待 匹配 用 户 之 间 的 呼叫 行为 特征 相似 程度 , 即 每 个 
特征 变量 的 重合 率 或 变异 率 的 加 权 值 ,其 计算 公式 为 : 

S = a, X zı Haz X z Hee a, Xr, (10.6) 

其 中 ,z; 代表 新 入 网 用 户 与 待 匹 配 用 户 在 第 i 个 特征 变量 的 重合 率 或 变异 率 ,a; 代表 每 个 特 
征 变 量 的 权重 ,根据 其 在 重 入 网 识别 中 的 重要 程度 可 以 动态 调整 。 

5. 设 定 呼叫 指纹 相似 度 阔 值 

大 于 该 阔 值 的 匹配 用 户 对 可 界定 为 疑似 重信 网 用 户 。 

6. 验证 

通过 电话 外 呼 或 客户 资料 比照 可 以 对 疑似 重 入 网 用 户 进行 验证 以 锁定 重 入 网 用 户 , 检 
验 模型 的 准确 性 及 覆盖 率 是 否 达 到 预期 要 求 , 如 果 达 不 到 要 求 则 需要 调整 模型 。 

锁定 重 入 网 用 户 后 ,需要 进一步 将 重 入 网 用 户 与 订购 套餐 /产品 、 渠 道 等 进行 关联 分 
析 , 发 现 引 起 重 入 网 的 症结 所 在 ,推荐 合适 的 套餐 ,降低 离 网 率 和 欠 费 风险 ,降低 经 营 
风险 。 

基于 IMEI 串 号 的 重信 网 识别 需要 进行 数据 清洗 以 排除 噪声 , 即 排除 错误 的 ,非法 烧 录 
的 、 空 缺 的 IMEI 串 号 等 ,然后 对 IMEI 串 号 进行 逐一 扫描 和 匹配 ,定位 重 入 网 用 户 。 


10.2.4 结果 


利用 基于 IMEI 串 号 和 基于 呼叫 指纹 两 种 重 入 网 识别 方法 ,对 某 市 2008 年 9 月 流失 的 
CDMA 用 户 45 537 户 和 2008 年 9 月 和 10 月 两 个 月 新 发 展 的 CDMA 用 户 135 638 户 进行 
重 入 网 甄别 ,通过 匹配 找到 拨打 过 相同 特征 号 码 的 用 户 对 共计 193 281, 其 中 大 部 分 流失 用 
户 在 新 人 网 用 户 中 都 能 找到 多 于 1 个 的 匹配 用 户 ,逐一 计算 相似 度 , 设 定 相似 度 阔 值 为 50， 
找到 疑似 重 入 网 用 户 12 596 ,对 这 些 疑 似 重 入 网 用 户 进行 客户 资料 比 对 和 电话 回访 进行 确 
认 ,最终 锁 定 重 入 网 用 户 10 791, 占 2008 4E 9 月 流失 的 CDMA 用 户 的 23.7%. 

重 入 网 识别 的 实际 意义 和 作用 体现 在 如 下 两 个 方面 。 

1. 调整 新 入 网 政策 

。 针对 部 分 用 户 自 身 的 流动 性 和 不 稳定 性 ,对 具有 流动 性 的 用 户 可 以 采取 针对 性 的 绑 

定 措 施 进行 挽留 。 
。 对 新 发 展 用 户 中 不 少 用 户 入 网 定位 不 准 , 进 行 深度 细 分 ,并 针对 性 地 提前 开展 主动 
的 市 场 梳理 ,减少 重 入 网 现象 。 
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。 对 重 入 网 用 户 开展 重 入 网 原因 和 政策 了 解 程度 的 调查 ,调整 产品 和 套餐 漏洞 ,减少 
成 本 和 收入 损失 。 
2. 调整 代理 商 佣金 政策 
代理 商 佣 金 侧重 奖励 新 发 展 的 非 重 入 网 用 户 , 适 当 降 低 新 发 展 的 重 入 网 用 户 的 佣金 
标准 。 
此 外 ,通过 在 用 户 `, 业 务 .品牌 .渠道 .消费 层次 和 生命 周期 等 多 个 方面 对 重信 网 现象 进 
行 分 析 , 找 出 不 足 并 采取 措施 。 


10.3 虚 开 欺诈 识别 


10.3.1 定义 


虚 开 主要 是 指 客户 资料 虚假 .开户 之 后 没有 或 者 几乎 没有 有 效 的 话 单 ,但 运营 商 却 要 支 
付 一 定 比例 的 代理 费 。 虚 开 用 户 带 给 运营 商 的 收入 很 少 或 者 几乎 没有 ,反而 增加 了 成 本 , 造 
成 不 少 损失 。 

虚 开 用 户主 要 表现 在 如 下 几 个 方面 。 

1. 很 少 的 费用 

虚 开 用 户 出 账 费 用 一 般 很 少 ,小 于 新 入 网 用 户 平均 出 账 费用 的 一 半 以 上 ,大 部 分 虚 开 用 
户 根本 不 出 账 。 

2. 很 少 的 话 务 

如 果 开户 后 一 月 之 内 没有 或 者 很 少 的 有 效 话 单 ,这 些 用 户 很 可 能 是 虚 开 用 户 ; 如 果 通 
话 次 数 或 者 通话 时 长 低 于 某 一 冰 值 , 则 也 可 能 是 虚 开 用 户 。 

3. 很 少 的 缴费 

虚 开 用 户 很 少 去 缴费 ,或 者 缴费 金额 很 少 。 

4. 用 户 资料 虚假 

多 数 虚 开 用 户 的 资料 是 虚假 的 ,如 没有 姓名 或 者 身份 证 号 码 ; 格式 不 正确 或 者 身份 证 
号 码 有 误 ; 甚至 没有 提供 用 户 资料 。 


10.3.2 数据 准备 


根据 业务 需求 选取 某 市 2008 年 12 月 新 发 展 的 146 283 个 CDMA 用 户 作为 分 析 对 象 ， 
从 ODS 和 业务 支撑 系统 ,抽取 有 效 的 新 发 展 用 户 连 续 三 个 月 的 通话 详 单 和 出 账 账单 数据 ， 
合并 汇总 后 生成 数据 宽 表 。 

通过 数据 清洗 剔除 下 列 无 效用 户 , 即 : 

* CDMA 智能 网 用 户 和 C+ 十 W 用 户 

。 当月 离 网 的 新 发 展 用 户 

。 找 不 到 资料 的 用 户 

清洗 后 当月 有 效 的 新 发 展 用 户 数 为 125 629. HP. CDMA 准 预付 费用 户 数 为 39 107. 
CDMA 后 付费 用 户 数 为 86 522, 
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10.3.3 建 模 过 程 


虚 开 欺诈 识别 的 建 模 过 程 如 下 : 

CD 通话 行为 筛选 

为 了 缩小 虚 开 欺诈 的 搜索 范围 ,对 于 当月 新 发 展 用户 ,首先 根据 当月 总 通话 次 数 和 时 长 
等 指标 是 否 大 于 当月 在 网 用 户 的 平均 值 进行 排除 ,小 于 的 为 疑似 虚 开 用 户 。 

(2) 消费 行为 筛选 

接 下 来 对 疑似 虚 开 用 户 ,根据 其 日 均 消费 是 否 大 于 在 网 用 户 日 均 消费 再 次 进行 排除 ,小 
于 的 为 疑似 虚 开 用 户 。 

(3) 通话 间隔 筛选 

针对 上 述 两 轮 排查 均 为 疑似 虚 开 的 用 户 ,利用 其 和 网 以 来 ,前 100 次 通话 的 时 间 间 隔 进 
行 聚 类 ,最 终 锁定 虚 开 用 户 。 


10.3.4 结果 


按照 上 述 分 析 过 程 ,对 于 当月 有 效 的 125 629 新 发 展 用户 , 经 过 通话 行为 筛选 ,发 现 疑 
似 虚 开 用 户 65318; 再 经 过 消费 行为 筛选 ,发 现 疑似 虚 开 用 户 49 4235 最 后 ,对 49 423 疑似 
虚 开 用 户 的 前 100 次 通话 的 时 间 间 隔 进行 聚 类 ,由 于 篇 幅 所 限 ,这 里 仅 给 出 了 前 30 次 通话 
的 时 间 间 隔 ( 以 小 时 为 单位 ) 的 聚 类 结果 ,如 表 10. 11 所 示 。 

表 10.11 前 30 个 通话 的 时 间 间 隔 聚 类 结果 


类 H 
į 2 3 4 5 
通话 时 间 间 隔 1 26.72 1158. 12 154. 75 142.73 
通话 时 间 间 隔 2 10. 48 1419. 02 34. 37 50. 75 
通话 时 间 间 隔 3 10.60 1487. 73 17.78 35.13 
通话 时 间 间 隔 4 12. 65 无 通话 13. 96 30. 95 
通话 时 间 间 隔 5 18. 41 无 通话 13. 10 39. 83 
通话 时 间 间 隔 6 15. 85 无 通话 11. 86 29. 92 
通话 时 间 间 隔 7 94.70 无 通话 11.88 41.48 
通话 时 间 间 隔 8 80. 80 无 通话 10. 83 44. 99 
通话 时 间 间 隔 9 633. 97 无 通话 10. 52 34. 58 
通话 时 间 间 隔 10 1012. 82 无 通话 9.98 33. 24 
通话 时 间 间 隔 11 1215. 38 无 通话 9. 44 26. 61 
通话 时 间 间 隔 12 1327. 17 无 通话 10.56 24.33 
通话 时 间 间 隔 13 1401. 27 无 通话 9.74 24. 28 
通话 时 间 间 隔 14 1456. 44 无 通话 9.08 27.11 
通话 时 间 间 隔 15 无 通话 无 通话 9.27 95.55 
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续 表 
类 H 
1 2 3 4 5 

通话 时 间 间 隔 16 无 通话 无 通话 9.00 无 通话 255. 44 
通话 时 间 间 隔 17 无 通话 无 通话 12. 80 无 通话 398. 88 
通话 时 间 间 隔 18 无 通话 无 通话 8.85 无 通话 520. 89 
通话 时 间 间 隔 19 无 通话 无 通话 9.01 无 通话 664. 66 
通话 时 间 间 隔 20 无 通话 无 通话 8.78 无 通话 800. 68 
通话 时 间 间 隔 21 无 通话 无 通话 8.25 无 通话 913. 36 
通话 时 间 间 隔 22 无 通话 无 通话 9.03 无 通话 1020. 93 
通话 时 间 间 隔 23 无 通话 无 通话 8.15 无 通话 1126. 56 
通话 时 间 间 隔 24 无 通话 无 通话 8.56 无 通话 1235. 35 
通话 时 间 间 隔 25 无 通话 无 通话 7.94 无 通话 1346. 50 
通话 时 间 间 隔 26 无 通话 无 通话 8.75 无 通话 1468. 29 
通话 时 间 间 隔 27 无 通话 无 通话 16.74 无 通话 无 通话 
通话 时 间 间 隔 28 无 通话 无 通话 29.68 无 通话 无 通话 
通话 时 间 间 隔 29 无 通话 无 通话 37. 89 无 通话 无 通话 
通话 时 间 间 隔 30 无 通话 无 通话 48. 63 无 通话 无 通话 

1 3205 

2 4782 

类 别 3 36 584 

4 3491 

5 1361 

Valid 49423 

Missing 0 


由 表 10. 11 可 知 : 

第 一 类 用 户 3205 户 , 入 网 一 天 内 发 生 了 通话 行为 ,表面 上 看 这 类 用 户 不 是 虚 开 用 户 。 
三 天 内 通话 5 次 ,但 第 7 和 8 次 通话 间隔 持续 一 周 左右 。 

第 二 类 用 户 4782 户 , 入 网 后 基本 没有 通话 。 

第 三 类 用 户 36 584 P! ,通话 时 间 间 隔 较 为 均匀 ,为 正常 使 用 的 用 户 。 

第 四 类 用 户 3491 户 , 入 网 后 两 天 内 通话 3 次 ,第 3 和 第 4 次 通话 的 时 间 间 隔 近 10 天 ， 
第 5 和 第 6 次 通话 的 时 间 间 隔 更 长 达 2 个 月 。 

第 五 类 用 户 1361 户 , 入 网 初期 通话 行为 与 正常 用 户 相似 ,只 是 通话 间隔 是 正常 用 户 群 
的 3—4 倍 , 但 随 着 时 间 的 推移 ,通话 逐渐 稀少 ,这 类 用 户 存在 离 网 风险 。 

最 终 锁定 第 一 、 二 和 四 类 为 虚 开 欺诈 用 户 共计 11 478, 占 当月 有 效 新 发 展 用户 125 629 
的 9.1%。 

对 虚 开 欺诈 用 户 首次 拨打 的 电话 号 码 排序 ,排名 前 10 的 电话 号 码 如 表 10. 12 所 示 。 
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510.12. 虚 开 欺诈 用 户 首次 拨打 的 电话 号 码 排 名 (前 10 个 ) 


电话 号 码 呼叫 次 数 说 明 
969001 7436 就 业 招 聘 

16882777 2964 收费 节目 
95555 2618 招商 银行 服务 
11888 1287 电信 充值 
969221 950 天 气 预报 
12121 814 天 气 预报 

16882660 480 

16885000 423 

16882659 389 


具体 地 ,对 首次 拨打 号 码 95555 的 虚 开 用 户 的 通话 行为 进行 跟踪 ,发 现 具 有 一 定 规律 


性 ,如 表 10. 13 


所 示 。 
表 10.13 首次 拨打 号 码 为 95555 的 虚 开 用 户 实 例 


和 人 网 时 间 


呼叫 | 呼叫 | 呼叫 | 呼叫 | 呼叫 | 呼叫 | 呼叫 | 呼叫 


号 码 1| 号 码 ?| 号 码 3| 号 码 4| 号 码 5| 号 码 6| 号 码 7| 号 码 8| 


呼叫 
号 码 9 


呼叫 
号 码 10 


2008-12-15 16:36 


153X X X X5798 | 95555 | 95555 | 95555 | 95555 | 95555 | 95555 | 95555 | 11888 


再 无 通话 


再 无 通话 


2008-12-15 16:33 


153X X X X5838 | 95555 | 95555 | 95555 | 95555 | 95555 | 95555 | 95555 | 11888 


再 无 通话 


再 无 通话 


2008-12-15 16:31 


153X X X X 5878 | 95555 | 95555 | 95555 | 95555 | 95555 | 95555 | 95555 | 11888 


11888 


再 无 通话 


2008-12-15 16:28 


153X X X X 5908 | 95555 | 95555 | 95555 | 95555 | 95555 | 95555 | 95555 | 11888 


11888 


再 无 通话 


2008-12-15 11:04 


153X X X X 5503 | 95555 | 95555 | 95555 | 95555 | 95555 | 95555 | 95555 | 11888 


再 无 通话 


再 无 通话 


2008-12-15 11:07 


153X X X X 5506 | 95555 | 95555 | 95555 | 95555 | 95555 | 95555 | 95555 | 11888 


再 无 通话 


再 无 通话 


2008-12-15 12:25 


153X X X X5512 | 95555 | 95555 | 95555 | 95555 | 95555 | 95555 | 95555 | 11888 


再 无 通话 


再 无 通话 


2008-12-15 12:25 


153X X X X 5513 | 95555 | 95555 | 95555 | 95555 | 95555 | 95555 | 95555 | 11888 


再 无 通话 


再 无 通话 


2008-12-1512:35 


153X X X X5515|95555 | 95555 | 95555 | 95555 | 95555 | 95555 | 95555 | 11888 


11888 


再 无 通话 


2008-12-15 12:45 


此 外 ,入 网 


153X X X X 5520 | 95555 | 95555 | 95555 | 95555 | 95555 | 95555 | 95555 | 11888 


再 无 通话 


后 首次 拨打 号 码 969001 和 16882777 的 虚 开 用 户 也 存在 类 似 现象 。 
虚 开 用 户 数 量 与 信 网 时 间 的 关系 如 图 10.6 所 示 。 


日 虚 开 用 户 分 布 


pm | 

0 

GUSSSSSSSSSSOSSSSSON UNDA 
日 期 


图 10.6 虚 开 用 户 数量 与 虚 开 时 间 的 关系 


再 无 通话 
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由 图 10.6 可 知 , 虚 开 用 户 多 发 生 在 月 中 至 月 底 ,当月 15 日 产生 峰值 。 

经 过 分 析 , 虚 开行 为 的 动机 主要 可 归纳 为 : 

。 销售 政策 不 合理 ,造成 代理 商 骗 取 佣 金 、 套 机 套 卡 等 。 

。 政策 指标 压力 大 ,为 了 完成 任务 ,拼命 发 展 用 户 ,不 顾 质量 或 者 和 弄虚作假 。 

。 用 户 满意 度 不 高 ,对 资费 服务、 网 络 等 方面 不 满 ,初期 使 用 了 一 两 次 后 就 再 也 没有 

兴趣 使 用 。 

。 其 他 因素 。SP 自 消费 ,偶然 因素 、 用 户 自 身 短 期 流动 和 买 卡 后 即 离开 等 。 

通过 虚 开 欺诈 识别 可 以 对 新 发 展 用 户 质量 进行 监控 ,规避 市 场 风险 。 目 前 国内 各 电信 
运营 商 的 移动 业务 发 展 任务 指标 都 很 重 。 在 保证 发 展 数量 的 同时 ,更 应 该 注重 发 展 质量 ,加 
强 渠道 管控 。 


10.4 数据 业务 收入 预测 


10.4.1 定义 


目前 ,数据 业务 逐步 成 为 电信 业务 收入 新 的 增长 点 ,3G 时 代数 据 业务 收入 的 保障 对 于 
电信 运营 商 未 来 发 展 具有 极其 重要 的 战略 意义 。 数 据 业 务 的 发 展 空间 较 大 ,同时 竞争 也 日 
趋 加 剧 ,因此 及 时 掌握 数据 业务 收入 情况 对 发 展 尤为 重要 。 

数据 业务 收入 预测 是 指 逐 月 滚动 预测 未 来 收入 情况 ,根据 过 去 及 本 年 度 各 月 收入 情况 ， 
预测 本 年 度 各 月 的 收入 ,提前 预知 各 月 数据 业务 收入 情况 ,以 便于 及 时 了 解 收入 异动 原因 ， 
采取 相应 措施 。 


10.4.2 数据 准备 


数据 业务 收入 预测 的 数据 来 源 于 某 移动 公司 的 经 营 分 析 系 统 ( 以 下 简称 BD ,其 中 包括 
客户 信息 资料 消费 账 单 和 签约 信息 等 。 这 些 数据 都 存储 在 经 分 数据 仓库 中 (IBM DB2) , 客 
户 资料 来 源 于 OCRM 系统 ,包括 客户 的 基本 信息 如 客户 名 称 、 签 约 时 间 等 ; 客户 账单 来 源 
于 BOSS 系统 ,分 为 实时 账单 、 日 账单 和 月 账单 ,包括 客户 所 用 移动 产品 的 具体 付费 情况 。 
BOSS 和 OCRM 接口 传 来 的 数据 具有 量 大 、 属 性 多 、 定 义 复杂 和 不 完整 等 特性 ,经 过 BI 系 
统 的 处 理 , 经 过 一 套数 据 转换 清洗、 汇总 等 流程 转化 为 干净 可 用 的 数据 ,具体 的 数据 加 工 过 
程 如 图 10.7 所 示 。 

数据 业务 收入 预测 的 输入 均 为 经 过 BI 加工 处 理 后 的 数据 ,是 数据 仓库 中 的 基础 表 , 不 
仅 为 数据 业务 收入 预测 服务 ,而且 还 为 BI 其 他 应 用 服务 ,因此 这 些 数据 表 均 可 以 直接 应 用 ， 
这 些 表 主 要 包含 BOSS 系统 的 各 类 计 费 详 单 .OCRM 系统 的 用 户 资料 等 ,具体 如 表 10. 14 
所 示 。 
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R10.14 数据 业务 收入 的 输入 表 


表 名 称 说 明 
ODS_ACCT_PGB_INFO_DT_YYYYMM 信息 费 计 费 详 单 月 累积 表 
ODS_ACCT_PGB_GPRS_DT_YYYYMM GRPS 计 费 详 单 月 累积 表 
ODS_ACCT_PGB_SMS_DT_YYYYMM SMS 计 费 详 单 月 累积 表 
YQ NEWBUSI SVC YYYYMMDD 数据 业务 使 用 情况 日 表 
ODS_ACCT_SCP_PGB_FEE_DT_YYYYMM 智能 网 PGB 费用 月 累积 表 
YQ PRODUCT DETAIL ALL YYYYMMDD 用 户 资料 日 表 
YQ NEWBUSI SVC BILLFEE YYYYMMDD 数据 业务 费用 日 表 
YQ_CHL_DBH_BUSL OPEN_USER_YYYYMM 渠道 用 户 业 务 开通 月 表 
YQ NEWBUSI SVC YYYYMM 数据 业务 使 用 情况 月 表 
YQ_ACCT_SHOULDITEM_ALL_YYYYMM 用 户 费 用 账单 月 表 
YQ PRODUCT YYYYMM 用 户 资 料 月 表 
YQ SETTLE CNG YYYYMM CNG 结算 费用 月 表 
ST_SETTLE_CALL_IG_MM IG 结 费 费用 月 表 
BUFFER SETTLE SPINFO FEE RESULT YYYYMM SP 信息 费 结算 月 表 
YQ PRODUCT MSG YYYYMM 用 户 资料 信息 月 表 
YQ ACCT PLANSHARE YYYYMM 用 户 分 摊 费 用 月 表 
YQ ACCT SHOULDITEM YYYYMM 非 智能 网 用 户 账 单 月 表 


为 了 满足 数据 业务 收入 预测 的 需求 ,需要 将 所 依赖 的 各 输入 数据 源 进行 加 工 处 理 , 转 换 
成 易于 前 端 展示 的 更 粗 粒度 的 汇总 数据 ,具体 数据 处 理 程序 如 表 10. 15 所 示 。 


R10.15 数据 业务 收入 的 数据 处 理 程序 列表 


程序 名 称 说 明 
dbip_d_st_dbip_kpi_monitor_dm. tcl 收入 日 监控 数据 处 理 程序 
dbip_m_dw_dbip_channel_open_user_yyyymm. tcl 渠道 收入 月 监控 仓库 层 数据 处 理 程序 
dbip m st dbip channel income mm. tcl 渠道 收入 月 监控 应 用 层 数 据 处 理 程序 
dbip m st dbip plan income mm, tcl 重点 业务 营销 包月 数据 处 理 程序 
dbip m st dbip income monitor mm. tcl 收入 月 监控 数据 处 理 程序 
dbip m st dbip plan compare mm. tcl 对 标 分 析 数 据 处 理 程序 


以 收入 日 监控 数据 处 理 程序 为 例 , 需 要 对 每 日 数据 业务 的 总 收入 及 点 对 点 短信 、 彩 信 、 
WAP 和 飞信 的 收入 进行 按 日 汇总 ,生成 日 ST 表 , 具 体 的 加 工 处 理 过 程 如 表 10. 16 所 示 。 


表 10.16 收入 日 监测 程序 的 处 理 过 程 


项 目 说 


明 


模块 程序 名 dbip d st dbip kpi monitor dm. tcl 


输入 ,输出 参数 | 输入 参数 : op_time( 数 据 日 期 7 


输入 数据 源 


YQ NEWBUSI SVC_BILLFEE_YYYYMMDD 
YQ NEWBUSI SVC YYYYMMDD 

ODS ACCT SCP PGB FEE DT YYYYMM 
ODS ACCT PGB SMS DT YYYYMM 

ODS ACCT. PGB GPRS DT YYYYMM 

ODS ACCT PGB INFO DT YYYYMM 


YQ PRODUCT DETAIL ALL YYYYMMDD 


续 表 


项 目 说 明 
输出 结果 ST DBIP KPI MONITOR DM 
€ 1l. 每 日 所 依赖 的 源 系统 接口 传输 完成 
NEA 。 | 2。BI 数据 仓库 汇总 完成 
处 理 逻 辑 
1. 数据 业务 总 收入 
数据 业务 总 收入 三 总 收入 一 非 数据 业务 的 语音 及 语音 增值 业务 费 
其 中 : 
总 收入 = 四 类 详 单 (语音 详 单 .INFO 详 单 .GPRS 详 单 .SMS 详 单 ) 合 计 十 动感 地 带 
月 租 费 十 智能 网 月 租 费 
统计 脚本 (SQL) : 
(1) 非 智能 网 收入 -新 业务 费 
select 
Sum(value(a. sms basefee, 0)) + sum(value(a. info fee, 0) + value(a. 
monthinfo fee,0)) * sun(value(a.flow fee,0)) 
as kpi value 
from 
dw newbusi svc billfee $ (yyyynmdd) a 
left outer join 
dw product detail all $ (yyyymmdd) b 
统计 口径 on a. product_no = b.product_no 


where 
(b. brand id not in (6,7,8) 
or b.sub brand id in(6110,7107,6414,6616,6131,6132,6133,6134) 
or b. brand id is null) 
and a.srctype id < 200 


(2) 智能 网 收入 -PGB 


Select 
sum( info_fee* 0.01) as kpi value 
from 
DWRUN.ODS ACCT SCP PGB FEE DT $ (yyyymm) a 
left outer join 
dw product detail all $ {yyyymmdd} b 
ona.msisdn - b.product no 
where 
a.payfee status id = '000" 
anda.op time = '$ (yyyy- mm- dd] " 
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续 表 
说 明 


统计 口径 


(3) 智能 网 收入 -新 业务 费 


select 
Sum(value( sms_basefee, 0)) + sun(value(info fee, 0) 
+ value(monthinfo fee,0)) + sum(value(flow fee,0)) 
as kpi value 

From 
dw newbusi svc billfee $ (yyyynmdd) a 
left outer join dw product detail all $ (yyyynmdd) b 
on a.product no = b.product no 

Where 
b.brand id in (6,7,8) 
And b.sub brand id not in(6110,7107,6414,6616,6131,6132,6133,6134) 
And a.srctype id» = 200 


2. 点 对 点 短信 收入 

点 对 点 短信 = 网 内 点 对 点 短信 十 企 信 通 网 内 短信 费 十 网 间 点 对 点 短信 十 校 信 
通 业 务 费 十 企 信 通 联通 短信 费 十 本 地 国际 短信 费 

统计 脚本 (SQL) : 

(1) 非 智能 网 -点 对 点 短信 收入 


Select 
sun(value(basecall fee,0) + value(toll feel,0) 
* value(toll fee2,0) * value(toll fee3,0)) 
from dw newbusi svc $ (yyyymmdd) a 
left outer join 
dw product detail all $ (yyyymmdd) c 
ona.product no = c.product no 
left outer join 
DIM ACCT CHARGECODE b 
ona.basecall fee id = b.charge code 
where 
basecall fee id in ('50', 306', '307', 51', 112") 
and (not (c. brand id in (6,7,8) 
and c.sub brand id not in(6110,7107,6414,6616,6131,6132,6133,6134)) 
or c. brand id is null) 
And srctype id < 200 


(2) 智能 网 -点 对 点 短信 收入 


Select 
sum(value(basecall fee,0) + value(toll feel,0) 
* value(toll fee2,0) * value(toll fee3,0)) 
from 
dw newbusi svc $ (yyyymmdd) a 
left outer join 
dw product detail all $ (yyyymmdd) c 
on a.product no = c.product no 
left outer join 


续 表 


说 明 


统计 口径 


left outer join 


DIM ACCT CHARGECODE b 
ona.basecall fee id - b.charge code 
where 
basecall fee id in ('50', 306', '307', '51', 112") 
and c. brand id in (6,7,8) 
and c.sub brand id not in(6110,7107,6414,6616,6131,6132,6133,6134) 
And srctype id»- 200 


(3) 智能 网 -本 地 国际 短信 费 


Select 
sum(value(basecall fee,0) + value(toll_feel,0) 
+ value(toll fee2,0) + value(toll fee3,0)) 
from 
dw newbusi svc $ (yyyymmdd) a 
left outer join 
dw product detail all $ (yyyymmdd) c 
on a.product no = c.product no 
left outer join 
DIM ACCT CHARGECODE b 
ona.basecall fee id = b.charge code 
where 
Svcitem id- 'BI180200' 
and basecall fee id = '0" 
and c. brand id in (6,7,8) 
and c.sub brand id not in(6110,7107,6414,6616,6131,6132,6133,6134) 
And srctype id» - 200 


(4) 智能 网 -点 对 点 短信 收入 -PGB 


select 
sum(value(AMOUNT 1,0) + value(AMOUNT 2,0) 
* value(AMOUNT 3,0) * value(AMOUNT 4,0)) as kpi value 
from 
DWRUN.ODS ACCT PGB SMS DT $ (yyyymm) a 
left outer join 
dw product detail all $ (yyyymmdd) b 
on a.product no = b.product no 
where 
a.op time = '$ (yyyy - mm- dd)" 
and charge code 1 in ('50', '306', '307', '51', 112") 


C5) 4i fei PO PAL Ar fei St 


select 

sum(value(basecall fee,0) + value(toll feel,0) 

* value(toll fee2,0) * value(toll fee3,0)) as kpi value 
from 

dw newbusi svc 2001114 a 
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续 表 
项 目 说 明 
DIM ACCT CHARGECODE b 
ona.basecall fee id - b.charge code 
left outer join 
dw product detail all $ (yyyymmdd) c 
on a. product no = c.product no 
where 
basecall fee id in ('301') 
3. WAP 收入 
WAP 收入 = WAP 通信 费 十 GPRS 国内 流量 费 ( 减 去 全 球 通 Bl e £7) + GPRS 国 
际 下 传 费用 十 3G GPRS 流量 费 十 手机 电视 3G 流量 费 
统计 脚本 (SQL) : 
OD WAP- 非 智能 网 
Select 
sum(basecall fee toll feel toll fee2 + toll fee3) as kpi value 
from 
DW NEWBUSI svc $ {yyyymmdd} a 
left outer join 
dw product detail all $ (yyyymmdd) c 
on a.product no = c.product no 
left outer join 
DIM ACCT CHARGECODE b 
ona.basecall fee id = b.charge code 
. where 
统计 口径 


(basecall fee id in ('38', '420', '199', 428") 

or (basecall fee id = '195' 

and c.sub brand id not in(5121, 5124))) 

and (not (c. brand id in (6,7,8) 

and c.sub brand id not in(6110,7107,6414,6616,6131,6132,6133,6134)) 
or c.brand id is null) 

And srctype id « 200 


(2) WAP- 智 能 网 


select 
sum(basecall fee+toll feel+toll fee2+toll fee3) as kpi value 
from 
DW NEWBUSI svc $ (yyyymmdd) a 
left outer join 
dw product detail all $ (yyyymmdd) c 
on a.product no = c.product no 
left outer join 
DIM ACCT CHARGECODE b 
ona.basecall fee id = b.charge code 
where 
(basecall fee id in ('38', 420', '199', 428") 
or (basecall fee id - '195" 
and c.sub brand id not in(5121, 5124))) 
and c. brand id in (6,7,8) 
and c.sub brand id not in(6110,7107,6414,6616,6131,6132,6133,6134) 


And srctype id» - 200 


续 表 


统计 口径 


(3) WAP-PGB 


select 
sum(value(AMOUNT 1,0) * value(AMOUNT 2,0) 
+  value(AMOUNT 3,0) + value(AMOUNT 4,0)) as kpi value 
from 
DWRUN.ODS ACCT PGB GPRS DT $ {yyyymm} a 
left outer join 
dw product detail all $ (yyyymmdd) b 
ona.product no - b.product no 
where a.op time = '$ (yyyy- mm- dd)" 
and (charge code 1 in ('38','420', 199', 428") 
or (charge code 1 = '195' 
and b.sub brand id not in(5121, 5124))) 


4. 点 对 点 彩信 收入 

点 对 点 彩信 收入 = 彩信 用 户 通 信 费 十 联通 彩信 通信 费 十 国际 彩信 通信 费 
统计 脚本 (SQL) : 
(1) 点 对 点 彩信 - 非 智 能 网 


select 
sun(value(basecall fee,0) * value(toll feel,0) 
* value(toll fee2,0) * value(toll fee3,0)) as kpi value 
from 
DW NEWBUSI svc $ {yyyymmdd} a 
left outer join 
dw product detail all $ (yyyymmdd) c 
ona.product no = c.product no 
left outer join 
DIM ACCT CHARGECODE b 
ona.basecall fee id = b.charge code 
where 
basecall fee id in ('85', 319', '226') 
and (not (c. brand id in (6,7,8) 
and c.sub brand id not in(6110,7107,6414,6616,6131,6132,6133,6134)) 
or c.brand id is null) 
And srctype id < 200 


(2) 点 对 点 彩信 - 智能 网 


select 
sum(value(basecall fee,0) + value(toll feel,0) 
* value(toll fee2,0) * value(toll fee3,0)) as kpi value 
from 
DW NEWBUSI svc $ (yyyynmdd) a 
left outer join 
dw product detail all $ (yyyymmdd) c 
on a.product no = c.product no 
left outer join 
DIM ACCT CHARGECODE b 
ona.basecall fee id - b.charge code 
where 
basecall fee id in ('85', '319', '226') 
and c. brand id in (6,7,8) 
and c.sub brand id not in(6110,7107,6414,6616,6131,6132,6133,6134) 
And srctype id» - 200 
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续 表 
说 明 


统计 口径 


(3) 点 对 点 彩信 -PGB 


select 
sum(value(AMOUNT 1,0) + value(AMOUNT 2,0) 
+  value(AMOUNT 3,0) + value(AMOUNT 4,0)) as kpi value 
from 
DWRUN.ODS ACCT PGB SMS DT $ (yyyymm) a 
left outer join dw product detail all $ (yyyymmdd) b 
ona.product no = b.product no 
where 
a.op time = '$ (yyyy - mm- dd]' 
and charge code 1 in ('85', '319', 226") 


5. 飞信 收入 

飞信 收入 — 飞信 通话 费 十 飞信 短信 费 十 飞信 速配 交友 功能 费 
统计 脚本 (SQL) : 
(1) 飞信 - 非 智能 网 用 户 


Select 
sum(value(basecall fee,0) + value(toll_feel,0) 
+ value(toll fee2,0) + value(toll fee3,0)) as kpi value 
from 
dw newbusi svc $ (yyyymmdd) a 
left outer join 
dw product detail all $ (yyyymmdd) b 
ona.product no = b.product no 
where 
basecall fee id in ('281','265', '275") 
and (not (b. brand id in (6,7,8) 
and b.sub brand id not in(6110,7107,6414,6616,6131,6132,6133,6134)) 
or b.brand id is null) 
And srctype id < 200 


(2) 飞信 -智能 网 用 户 


select 
sum(basecall fee toll feel-* toll fee2 + toll fee3) 
from 
dw newbusi svc $ (yyyymmdd) a 
left outer join dw product detail all $ (yyyymmdd) b 
on a.product no = b.product no 
where 
basecall fee id in ('281','265', 275") 
and b.brand id in (6,7,8) 
and b.sub brand id not in(6110,7107,6414,6616,6131,6132,6133,6134) 
And srctype id» - 200 


续 表 


项 目 说 å 
(3) 飞信 -PGB 
select 
sum(value(AMOUNT 1,0) + value(AMOUNT 2,0) 
+  value(AMOUNT 3,0) + value(AMOUNT 4,0)) as kpi value 
from 
统计 口径 DWRUN.ODS ACCT PGB INFO DT $ (yyyymm) a 


left outer join 


where 


a.op time = ' 
and charge code 1 in ('281','265', '275') 


dw product detail all $ (yyyymmdd) 
bona.product no = b.product no 


$ (yyyy - mm - dd)' 


程序 位 置 /dw run/bi dw/aiomni/odsst/bin/DBIP 


经 过 各 数据 处 理 程序 对 输入 数据 进行 相应 的 汇总 处 理 ,形成 了 数据 业务 收入 的 结果 表 ， 
用 来 存储 各 个 模块 的 各 统计 周期 数据 ,统计 周期 主要 有 日 和 月 ,具体 如 表 10. 17 所 示 。 


R10.17 数据 业务 收入 的 输出 表 


表 名 称 说 明 
ST_DBIP_KPI_MONITOR_DM 收入 日 监控 数据 存储 表 
ST DBIP CHANNEL INCOME MM 渠道 收入 月 监控 应 用 层 数据 存储 表 
ST_DBIP_PLAN_INCOME_MM 重点 业务 营销 包月 监控 数据 存储 表 
ST_DBIP_INCOME_MONITOR_MM 收入 月 监控 数据 存储 表 
YQ DBIP CHANNEL OPEN USER YYYYMM 渠道 收入 月 监控 仓库 层 数据 存储 表 
ST DBIP PLAN COMPARE MM 对 标 分 析 月 分 析 数 据 存储 表 
ST_DBIP_INCOME_FORECAST_MM 数据 业务 总 收入 预测 数据 存储 表 


数据 业务 收入 预测 的 输出 表 为 新 增 仓 库 表 ,需要 在 数据 仓库 中 建立 这 些 表 以 存储 各 功 
能 模块 的 统计 数据 ,因此 需要 对 各 库 表 的 结构 进行 设计 ,主要 包括 各 表 的 字段 定义 ,具体 各 
表 的 定义 如 表 10. 18 一 表 10. 24 所 示 。 

其 中 ,ST_DBIP_KPIL MONITOR DM 是 收入 日 监控 表 , 用 来 存储 日 收入 五 个 指标 的 
维度 值 及 指标 值 ,维度 主要 分 为 数据 日 期 和 品牌 ,具体 表 的 定义 如 表 10. 18 所 示 。 


表 10.18 收入 日 监控 表 


字段 名 称 字段 说 明 
OP_TIME 数据 日 期 s 
BRAND ID 品牌 ID 章 
KPI ID KPI 编号 数 
KPI NAME KPI 名 称 z 
KPI VALUE KPI fë E 
例 
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ST DBIP PLAN INCOME MM 是 重点 业务 营销 包 收 入 月 监控 表 , 用 来 存储 各 类 营 
销 包 在 各 个 维度 的 收入 、 当 月 收入 、 历 史 收 入 和 累计 收入 ,维度 主要 分 为 数据 日 期 .品牌 和 营 
销 包 分 类 ,具体 表 的 定义 如 表 10. 19 所 示 。 


表 10.19 重点 业务 营销 包月 监控 表 


字段 名 称 字段 说 明 
OP_TIME 数据 日 期 
CLASS ID 营销 包 分 类 编码 
SUB CLASS ID 营销 包子 类 编码 
ITEM_ID 营销 包 编码 
BRAND_ID 品牌 
AMOUNT 本 月 
LAST_MONTH_AMOUNT 上 月 
LAST_YEAR_AMOUNT 去 年 同期 
ACCUMULATE_AMOUNT 本 年 累计 
LAST_ACCUMULATE 去 年 同期 累计 
TOTAL_AMOUNT 当年 所 有 收入 


ST DBIP INCOME MONITOR MM 是 收入 月 监控 表 , 用 来 存储 各 业务 在 各 个 维度 
的 收入 .当月 收入 \ 历 史 收入 及 累计 收入 ,维度 主要 分 为 数据 日 期 .品牌 ,收入 分 类 和 市 场 分 


类 等 ,具体 表 的 定义 如 表 10. 20 所 示 。 


表 10.20 收入 月 监控 表 


字段 名 称 字段 说 明 
OP_TIME 数据 日 期 

CLASS ID 收入 分 类 编码 

ITEM_ID ITEM_ID 

BRAND_ID 品牌 二 DIM_DBIP_PRODUCT_BRAND. BRAND ID 
MARKET CLASS ID 市 场 分 类 

PROFFER_CLASS_ID 业务 贡献 度 

SOURCE CLASS ID 收入 来 源 方式 

AMOUNT 当月 收入 
LAST_MONTH_AMOUNT 上 月 收入 
LAST_YEAR_AMOUNT 去 年 同期 收入 

ACCUMULATE AMOUNT 累计 收入 
LAST_ACCUMULATE 去 年 同期 累计 收入 
TOTAL_AMOUNT 当月 累计 总 收入 


OW DBIP CHANNEL OPEN USER YYYYMM 是 渠道 收入 月 监控 仓库 层 表 ,用 来 
存储 每 个 用 户 在 各 渠道 的 业务 开通 情况 ,主要 包括 用 户 号 码 、 开 通 的 业务 、 渠 道 以 及 统计 各 
业务 收入 的 起 止 日 期 ,具体 表 的 定义 如 表 10. 21 所 示 。 


表 10.21 渠道 收入 月 监控 仓库 层 表 


字段 名 称 字段 说 明 

OP_TIME 数据 日 期 

PRODUCT NO 用 户 号 码 

USER OPENTIME 用 户 入 网 时 间 

BUSI ID 业务 编码 
BUSLNAME 业务 名 称 

OPEN DATE 开通 日 期 
CHANNEL_KIND_ID 开通 渠道 分 类 
CHANNEL TYPE ID 开通 渠道 类 型 
BEGIN_CHARGE_DATE 计 入 渠道 收入 开始 日 期 
END CHARGE DATE 计 入 渠道 收入 结束 日 期 


ST_DBIP CHANNEL_INCOME_MM 是 渠道 收入 月 监控 应 用 层 表 , 用 来 存储 各 渠道 
的 各 个 业务 的 当月 收入 、 历 史 收 入 和 累计 收入 ,维度 主要 分 为 数据 日 期 品牌 和 业务 ,具体 表 


的 定义 如 表 10. 22 所 示 。 


表 10.22 渠道 收入 月 监控 应 用 层 表 


字段 名 称 字段 说 明 
OP_TIME 数据 日 期 
CHANNEL TYPE ID 渠道 类 型 
BUSI ID 业务 ID 
AMOUNT 当月 收入 
LAST_MONTH_AMOUNT 上 月 收入 
LAST YEAR AMOUNT 去 年 同期 收入 
ACCUMULATE_AMOUNT 累计 收入 
LAST_ACCUMULATE 去 年 同期 累计 收入 


ST_DBIP_PLAN_COMPARE_MM 是 对 标 分 析 表 ,用 来 存储 每 个 月 移动 集团 下 发 的 
《增值 业务 通报 表 ) 中 的 数据 ,主要 包括 省 份 、 客 户 数 类 指标 值 、 业 务 的 使 用 量 指 标 值 以 及 用 
户 普 及 率 等 ,维度 主要 分 为 数据 日 期 .省 份 ,具体 表 的 定义 如 表 10. 23 所 示 。 


R10.23 对 标 分 析 表 


字段 名 称 字段 说 明 

OP_TIME 数据 日 期 

BUSLID 业务 编号 

PROVINCE, ID 省 份 编号 

ALL USERS 移动 客户 数 

ARRIVAL. USERS 到 达 客户 数 

ACTIVE USERS 活跃 用 户 数 n 

AMOUNT 收入 章 

PRICE 单价 

ACTIVITY 活跃 度 i 

MOBILE ACTIVITY 手机 客户 端 活跃 度 控 

SMS_ARPU 短信 ARPU 
例 
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续 表 

字段 名 称 字段 说 明 
AVERAGE_ARPU 人 均 ARPU 
AVG. PORTFOLIO 人 均 使 用 量 
PENET_RAT 用 户 普 及 率 
USE PENET RAT 使 用 用 户 普及 率 
PAY_PENET_RAT 付费 用 户 普及 率 
CRING RUNOUT RAT 彩铃 用 户 流失 率 
PAY_TO_USE_RAT 付费 用 户 占 使 用 用 户 比例 
MBPHONEPAPER AMOUNT RAT 早晚 报 收 入 占 比 
MBPHONEPAPER USER RAT 早晚 报 付费 用 户 占 比 


ST DBIP INCOME FORECAST MM 是 数据 业务 收入 预测 存储 表 , 用 来 存储 每 个 月 
实际 数据 业务 收入 及 每 个 月 的 预测 数据 ,主要 包括 实际 收入 和 预测 收入 ,具体 表 的 定义 如 
表 10. 24 所 示 。 


表 10.24 数据 业务 收入 预测 存储 表 


字段 名 称 字段 说 明 
OP_TIME 数据 日 期 
FORECAST_AMOUNT 预测 收入 值 
REAL AMOUNT 实际 收入 值 


10.4.3 BE 


自 回归 移动 平均 模型 (Autoregressive Integrated Moving Average Model. ARIMA) ,是 
由 博克 思 (CBox) 和 詹金斯 (Jenkins) 于 20 世纪 70 年 代 初 提出 的 著名 时 间 序 列 预测 方法 ,所 
以 又 称 为 Box-Jenkins 模型 或 博克 思 - 人 詹金斯 算法 。 其 中 ARIMA(p,d,g) 称 为 差分 自 回 归 
移动 平均 模型 ,AR 是 自 回归 ,p 为 自 回归 项 ; MA 为 移动 平均 ,g 为 移动 平均 项 数 ,d 为 时 间 
序列 成 为 平稳 时 所 做 的 差分 次 数 。 
ARIMA 模型 的 基本 思想 是 将 预测 对 象 随时 间 推 移 而 形成 的 数据 序列 视 为 一 个 随机 序 
列 , 用 一 定 的 数学 模型 来 近似 描述 这 个 序列 。 这 个 模型 一 旦 被 识别 后 就 可 以 从 时 间 序 列 的 
过 去 值 和 现在 值 来 预测 未 来 值 。 
AR 模型 也 称 为 自 回 归 模 型 , 它 的 预测 方式 是 通过 过 去 的 观测 值 和 现在 的 干扰 值 的 线 
性 组 合 预 测 , 自 回归 模型 的 数学 公式 为 : 
Li = po H piti F prtm +e + ppTep FE 
g 天 0 
Ele) = 0, Var(e) = oH. ECee,;) =0,s t 
Elese) —0.Vs-—t 
其 中 ,p 为 自 回归 模型 的 阶 数 ,e, 为 误差 ,t 为 一 个 时 间 序 列 。 
MA 模型 也 称 为 滑动 平均 模型 , 它 的 预测 方式 是 通过 过 去 的 干扰 值 和 现在 的 干扰 值 的 
线性 组 合 预测 ,滑动 平均 模型 的 数学 公式 为 : 


(10. 7) 


ESI (10.8) 
Ele) —0, Var(e) = o, Elese) = 0,s £t 
其 中 ,g 为 模型 的 阶 数 ,y 为 模型 的 待定 系数 ,e, 为 误差 ,t 为 一 个 时 间 序 列 。 
自 回 归 模 型 和 滑动 平均 模型 的 组 合 便 构 成 了 用 于 描述 平稳 随机 过 程 的 自 回 归 滑 动 平均 
模型 ARMA ,数学 公式 为 : 
4, = deo Ffit tfta cb tb aro, 6€ — 0e — 0e; — 7 — 0c 
DERE 
Ele) — 0, Vare) = g Ele) —0.s zt 
E(ee,) = 0 Vs <t 
数据 业务 收入 预测 的 建 模 过 程 如 下 : 
CD 根据 时 间 序 列 的 散 点 图 、 自 相关 函数 和 偏 自 相 关 函 数 图 以 ADF 单位 根 检验 其 方 
差 .趋势 及 其 季节 性 变化 规律 ,对 序列 的 平稳 性 进行 识别 。 一 般 地 ,经 济 运行 的 时 间 序 列 都 
不 是 平稳 序列 。 
(2) 对 非 平稳 序列 进行 平稳 化 处 理 。 如 果 数 据 序列 是 非 平 稳 的 ,并 存在 一 定 的 增长 或 
下 降 趋 势 , 则 需要 对 数据 进行 差分 处 理 ,如果 数据 存在 异 方差 , 则 需要 对 数据 进行 处 理 , 直 到 
处 理 后 的 数据 的 自 相关 函数 值 和 偏 相 关 函 数值 并 无 显著 地 异 于 零 。 
(3) 根据 时 间 序 列 模型 的 识别 规则 ,建立 相应 的 模型 。 若 平稳 序列 的 偏 相 关 函 数 是 截 
尾 的 ,而 自 相关 函数 是 拖 尾 的 ,可 断定 序列 适合 AR 模型 ; 若 平 稳 序 列 的 偏 相关 函数 是 拖 尾 
的 ,而 自 相关 函数 是 截 尾 的 , 则 可 断定 序列 适合 MA 模型 ; 若 平稳 序列 的 偏 相关 函数 和 自 相 
关 函 数 均 是 拖 尾 的 , 则 序列 适合 ARMA 模型 。 
(4) 进行 参数 估计 ,检验 是 否 具有 统计 意义 。 
(5) 进行 假设 检验 ,诊断 残 差 序列 是 否 为 白 噪声 。 
(6) 利用 已 通过 检验 的 模型 进行 预测 分 析 。 
数据 业务 收入 根据 历史 实际 收入 数据 ,应 用 ARIMA 预测 模型 对 未 来 一 年 的 收入 进行 
预测 ,用户 每 个 月 将 实际 收入 作为 预测 的 数据 输入 ,对 未 来 收入 进行 滚动 预测 ,用户 可 以 对 
实际 收入 及 预测 收入 进行 查询 、 对 比分 析 、 趋 势 分 析 等 。 收 入 预测 的 过 程 如 图 10. 8 所 示 。 
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10.4.4 结果 


利用 过 去 近 三 年 的 收入 数据 和 ARIMA 进行 预测 ,结果 如 表 10. 25 所 示 ,预测 的 差异 率 
在 士 10% 以 内 ,预测 数据 波动 情况 与 实际 的 波动 情况 基本 一 致 (如 图 10. 9 所 示 ) ,因此 采用 
此 预测 方法 基本 上 可 以 满足 用 户 的 要 求 。 


表 10.25 收入 预测 值 与 实际 收入 对 比 表 


数据 月 份 Bü Go 实际 值 (元 ) 差异 (元 ) 差异 率 
2009-01 89 504 684. 36 8 7679 674. 99 1 825 009. 37 2.08% 
2009-02 102 022 149. 60 100 516 365. 52 1 505 784. 08 1.50% 
2009-03 110 190 192. 56 112 074 780. 47 —1 884 587. 91 —1. 68% 
2009-04 108 368 918. 28 113 752 227. 15 — 5 383 308. 87 —4. 73% 
2009-05 113 922 249. 28 112 066 256. 88 1 855 992. 40 1.66% 
2009-06 113 694 142. 24 121 229 181. 07 一 7 535 038. 83 —6. 22% 
2009-07 127 078 139. 16 120 197 891. 71 6 880 247. 45 5.72% 
2009-08 118 309 652. 16 123 953 333. 43 — 5 643 681. 27 —4. 55% 
2009-09 133 326 950. 96 123 003 491. 86 10 323 459. 10 8. 39% 
2009-10 125 804 930. 16 115 409 303. 87 10 395 626. 29 9.0126 
2009-11 115 750 794. 88 105 475 040. 64 10 275 754. 24 9.74% 
2009-12 110 393 109. 96 118 343 182. 47 一 7 950 072. 51 —6.72% 
2010-01 127 225 535. 92 126 082 499. 80 1 143 036. 12 0.91% 
2010-02 130 903 640. 00 133 029 303. 64 —2 125 663. 64 —1. 60% 
2010-03 129 521 499. 24 132 113 160. 21 —2 591 660. 97 —1.96% 
2010-04 130 807 013. 68 131 683 668. 34 —876 654. 66 —0. 67% 
2010-05 134 786 825. 88 131 559 150. 39 3 227 675. 49 2.45% 
2010-06 134 297 487. 24 125 109 544. 96 9 187 942. 28 7.34% 
2010-07 130 945 950. 52 129 880 845. 12 1065 105. 40 0.82% 
2010-08 140 447 183. 24 130 581 895. 36 9 865 287. 88 7.55% 
2010-09 136 699 384. 64 139 433 372. 33 —2 733 987. 69 —1.96% 
2010-10 130 589 300. 80 127 977 514. 78 2 611 786. 02 2.04% 
2010-11 136 675 625. 80 129 841 844. 51 6 833 781. 29 5.26% 
2010-12 139 362 168. 68 149 117 520. 49 —9 755 351. 81 —6. 54% 
2011-01 141 138 069. 52 
2011-02 142 029 118. 84 
2011-03 140 375 757. 20 
2011-04 140 684 772. 76 
2011-05 142 627 225. 16 
2011-06 146 261 889. 76 
2011-07 145 105 681. 00 
2011-08 154 970 731. 57 
2011-09 151 904 763. 86 
2011-10 170 300 570. 13 
2011-11 168 920 884. 66 
2011-12 170 021 845. 79 
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10.9 数据 业务 收入 预测 结果 


10.5 移动 客户 流失 预测 


客户 流失 已 经 成 为 很 多 企业 所 面临 的 尴 坎 ,他 们 大 多 也 都 知道 失去 一 个 老 客 户 会 带 来 
巨大 的 损失 ,需要 企业 至 少 再 开发 10 个 新 客户 才能 予以 弥补 。 但 当 问 及 企业 客户 为 什么 流 
失 时 ,企业 往往 一 脸 迷茫 , 谈 到 如 何 防范 ,更 是 诚 性 诚 恐 。 如 今 ,市 场 竞争 日 益 激 烈 , 谁 保持 
住 了 老 客户 , 谁 就 能 在 竞争 中 占据 上 风 。 

移动 通信 的 客户 流失 是 一 个 长 久 以 来 困扰 全 球 移动 通信 运营 商 的 难题 。 在 欧洲 ,每 年 
有 35% 一 50% 的 客户 流失 ,而 发 展 一 个 新 客户 的 平均 成 本 为 70 元 。 这 几乎 相当 于 一 个 客 
P 5 年 来 给 公司 带 来 的 净利 润 。 这 种 情况 直接 导致 客户 回报 率 的 下 降 。 在 美国 ,不 少 移动 
通信 运营 商 有 着 40% 的 流失 率 ,而 发 展 一 个 新 客户 的 成 本 超过 了 40 元 。 在 亚洲 的 日 本 ,中 
国 的 台湾 和 香港 等 地 ,移动 通信 市 场 正在 经 历 过 激 竞 争 阶段 ,伴随 而 来 的 是 极 高 的 客户 流失 
率 。 从 全 球 范围 来 看 ,移动 运营 商 每 年 因为 客户 流失 所 带 来 的 损失 在 100 亿 元 左右 。 

早期 的 移动 通信 市 场 营销 战略 重点 在 市 场 开 拓 和 客户 发 展 上 ,对 于 客户 流失 没有 引起 
足够 的 重视 ,对 可 能 流失 客户 的 维系 与 挽留 措施 不 到 位 。 随 着 运营 商 的 技术 和 产品 同 质 化 
程度 的 不 断 提 高 ,人 网 费用 逐步 下 调 甚至 取消 , 转 网 成 本 迅速 降低 。 出 于 竞争 的 目的 ,各 运 
营 商 又 纷纷 出 台 促 销 套餐 ,使 得 客户 更 换 号 码 , 在 网 间 转 来 转 去 的 情况 较为 普遍 ,形成 所 谓 
的 “旋转 门 效 应 ”(Revolving-door Effect) , 即 新 客户 进来 时 原 有 的 客户 却 出 去 了 , 像 旋转 门 
一 样 的 进 进出 出 。 这 种 “大 进 大 出 ”现象 使 运营 商 经 营 成 本 大 幅 上 升 ,为 了 发 展 一 个 新 客户 ， 
需要 付出 高 昂 的 成 本 。 营 销 实 践 表明 新 增 客户 的 ARPU 值 ( 月 平均 消费 额 ) 一 般 不 及 老 客 
户 。 因 此 ,对 于 电信 运营 商 而 言 ,分 析 客 户 流失 原因 ,提前 预测 客户 离 网 倾向 ,并 有 的 放 矢 地 
采取 有 效 措 施 降低 离 网 率 , 具 有 重要 的 现实 意义 。 具 体 地 ,可 归纳 为 以 下 三 个 方面 。 

第 一 ,可 以 避免 与 竞争 对 手打 价格 战 。 客 户 流失 率直 接 影响 到 运营 商 的 市 场 占有 率 、 竞 
争 成 本 和 经 济 效益 。 而 一 旦 客户 离 网 ,一 般 会 简单 地 采取 直接 降低 资费 、 推 出 更 多 的 优惠 进 
行 市 场 回应 ,并 试图 一 次 性 地 快速 控制 过 高 的 流失 率 ,而 资费 的 降低 是 不 可 道 的 ,最 终 将 导 
致 竞争 双方 被 迫 陷 和 人 价格 战 的 旋涡 ,形成 价格 越 来 越 低 , 收 入 越 来 越 少 的 恶性 循环 。 

第 二 ,可 以 降低 营销 成 本 。 通 信 企 业 发 展 新 客户 将 投入 大 量 的 广告 费 、 促 销 费 、 代 理 费 
及 SIM 卡 等 一 系列 费用 。 因 此 ,挽留 一 个 老 客户 的 意义 不 亚 于 发 展 3 一 5 个 新 客户 的 意义 。 

第 三 ,可 以 与 客户 建立 稳定 联系 ,延长 客户 生命 周期 ,提升 其 忠诚 度 及 价值 ,进行 增 量 或 
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交叉 销售 ,进一步 推广 新 业务 和 增值 业务 。 

目前 ,新 入 网 的 移动 客户 中 以 低 端 为 主 ,高 端 客户 的 增长 主要 来 源 于 竞争 对 手 或 运营 商 
内 部 不 同 品牌 的 转换 ,高 端 客户 市 场 基 本 处 于 存量 竞争 状态 。 与 固定 电话 客户 相 比 ,移动 业 
务 客户 转换 运营 商 的 交易 成 本 和 转换 成 本 较 小 ,激烈 的 竞争 必然 导致 客户 处 于 不 稳定 状态 ， 
各 运营 商都 面临 严重 的 客户 流失 问题 。 客 户 的 平均 生命 周期 不 断 缩短 ,严重 影响 电信 企业 
的 发 展 , 不 仅 给 运营 商 的 收入 造成 损失 ,也 给 企业 的 经 营 带 来 压力 。 在 这 种 形势 下 ,如 何 根 
据 客户 各 种 行为 预测 客户 的 流失 ,并 结合 竞争 环境 的 变化 制定 有 效 的 客户 挽留 和 赢 回 策略 ， 
力求 未 雨 绸 缪 ,是 一 个 迫切 需要 解决 的 问题 。 


10.5.1 定义 


客户 流失 是 指 客户 因 某 种 原因 与 运营 商 解除 服务 合同 的 行为 。 移 动 业务 的 客户 流失 
有 三 方面 的 含义 : 一 是 指 客户 从 一 个 运营 商 转 到 其 他 运营 商 ,这 是 流失 分 析 的 重点 ; 二 
是 指 客户 使 用 的 手机 品牌 发 生 改变 ,从 本 运营 商 的 高 价值 品牌 转向 低 价 值 品牌 ,例如 中 
国 移动 的 客户 从 全 球 通 转 为 神州 行 ; 三 是 指 客户 ARPU 降低 ,从 高 价值 客户 转 为 低 价值 
客户 。 

此 外 ,可 以 根据 流失 原因 ,如 价格 .服务 质量 .公司 形象 和 竞争 对 手 等 因素 将 客户 流失 划 

1. 自然 流失 

自然 流失 不 是 人 为 因素 造成 的 ,如 客户 的 搬迁 、 死 亡 等 ,其 流失 数量 不 大 ,而 且 对 企业 的 
影响 也 较 小 ,不 需要 重点 分 析 。 

2. 恶意 流失 

恶意 流失 是 指 一 些 客户 为 了 满足 自己 的 某 些 私利 而 选择 离开 ,最 典型 的 例子 就 是 恶意 
欠 费 。 这 类 客户 的 行为 应 该 属于 一 种 欺诈 行为 ,相对 较 少 ,但 是 性 质 恶 劣 ,需要 严 加 控制 。 
对 于 这 类 客户 造成 的 问题 主要 还 要 从 预防 恶意 高 额 欠 费 和 信用 监控 等 方面 着 手 解 决 ,建立 
完善 的 客户 信用 管理 机 制 ,避免 该 类 流失 客户 的 增多 。 

3. 竞争 流失 

竞争 流失 是 由 于 企业 竞争 对 手 的 影响 造成 的 ,竞争 焦点 主要 集中 在 价格 、 质 量 和 服务 方 
面 。 由 于 竞争 对 手 在 各 方面 对 客户 都 更 具有 吸引 力 ,从 而 导致 客户 流失 到 竞争 对 手 。 企 业 
可 以 采取 相应 策略 ,提高 自身 的 服务 质量 挽留 客户 。 

4. 过 失 流失 

过 失 流 失 大 都 是 由 于 企业 自身 过 失 造 成 的 ,或 者 是 一 些 决策 失误 导致 的 客户 离 网 ,这 部 
分 流失 客户 占 流 失 总 量 的 比例 最 高 , 带 给 企业 的 影响 最 大 。 例 如 欠 费 停机 所 采取 的 策略 问 
题 , 很 多 客户 只 是 由 于 暂时 没有 来 得 及 缴费 导致 欠 费 停机 ,而 有 的 客户 是 恶意 欺诈 导致 高 额 
欠 费 停机 ,应 该 说 是 两 种 欠 费 停机 的 性 质 完 全 不 同 , 而 相关 策略 对 于 两 者 并 没有 区 别 对 待 ， 
导致 某 些 客户 流失 。 如 果 区 别 对 待 , 则 可 能 挽留 住 有 价值 的 客户 ,提高 企业 收益 。 

目前 ,客户 流失 预测 的 常用 方法 之 一 是 利用 大 量 的 历史 数据 通过 建立 流失 预测 模型 找 
出 隐 含 的 业务 规则 ,并 运用 已 经 学 习 训 练 好 的 模型 预测 未 来 可 能 流失 的 客户 。 


10.5.2 数据 准备 


数据 准备 阶段 的 工作 主要 是 选择 合适 的 数据 源 , 整 理 分 析 所 需 的 信息 ,包括 通话 、 消 费 、 
欠 费 和 客服 行为 数据 等 。 然 后 ,对 原始 数据 进行 检查 和 预 处 理 ,生成 新 的 衍生 变量 ,并 整理 
成 适合 分 析 使 用 的 数据 宽 表 。 因 为 并 不 是 所 有 的 信息 都 会 对 客户 流失 产生 影响 ,应 尽 可 能 
地 降低 数据 的 复杂 度 以 挖掘 较 高 的 关联 度 , 但 是 考虑 到 后 期 客户 流失 的 多 维 分 析 , 应 当 尽 量 
确保 客户 信息 的 完整 性 。 因 此 ,应 收集 有 价值 的 客户 信息 ,剔除 部 分 元 余数 据 , 减 少 噪声 
数据 。 

具体 的 数据 准备 过 程 如 下 : 

1. 选择 数据 分 析 范围 

根据 业务 需求 选取 某 本 地 网 35 731 小 灵通 客户 最 近 连 续 四 个 月 的 数据 ,以 前 三 个 月 数 
据 作为 训练 集 , 第 四 个 月 数据 作为 测试 集 , 即 利用 最 近 连 续 三 个 月 的 数据 ,预测 未 来 一 个 月 
客户 是 否 流失 。 

2. 收集 原始 数据 

从 计 费 账 务 系统 、97 系统 .10000 号 管理 中 心 .关口 局 等 抽取 大 量 详 单 级 数据 。 

3. 数据 清洗 

将 获取 的 数据 经 过 ETL 过 程 导入 到 本 地 数据 仓库 的 过 程 可 能 会 遇 到 一 些 问题 , 如 
10000 号 的 数据 是 日 志 格 式 的 ,需要 先 用 SQL 编程 实现 从 日 志 到 详 单 的 转换 ,然后 再 计算 
并 汇总 详 单 ; 很 多 客户 资料 与 计 费 账 务 系统 无 法 一 一 对 应 ; 关口 局 的 详 单数 据 需 要 ETL 
的 进一步 归并 等 。 非 常 繁琐 而 且 运 算 量 很 大 。 因 此 ,需要 事先 明确 数据 清洗 的 规则 。 

4. 检查 数据 质量 

在 检查 前 面 提取 的 数据 时 发 现 数据 存在 如 下 问题 : 

。 数据 缺失 严重 , 绝 大 多 数 的 客户 属性 都 有 大 量 的 缺失 值 ,例如 账 务 系统 中 的 200 多 

个 属性 ,很 多 客户 都 是 null, 业 务 标识 也 是 如 此 ,由 于 总 体 缺失 值 比例 过 高 ,根本 没 
办 法 进行 合理 的 缺失 值 处 理 ,所 以 根据 客户 流失 的 业务 定义 剔除 一 些 无 关 的 属性 。 

。 合同 号 所 属 电话 号 码 月 租 分 布 差异 很 大 ,将 月 租 属性 单独 列 项 。 

。 各 地 合同 号 编写 规则 不 一 , 需 统 一 规则 。 

。 并 网 导致 同一 合同 号 所 属 区 域 矛 盾 , 需 归 账 统一 。 

。 出 账 费 用 有 些小 于 零 的 情况 ,属于 已 经 享受 优惠 套餐 或 冲 减 话 费 应 剔除 。 

5. 计算 衍生 变量 

根据 客户 流失 预测 的 建 模 需 求 ,需要 计算 一 些 衍 生变 量 ,包括 总 费用 趋势 .总 费用 波动 、 
本 地 费用 波动 、 本 地 费用 趋势 .长途 费用 波动 长 途 费 用 趋势 以 及 网 间 、 欠 费 和 客服 行为 等 。 

6. 合并 生成 宽 表 

按照 客户 标识 号 合并 各 种 数据 ,生成 一 张 数据 宽 表 , 其 中 每 行 代表 一 个 客户 ,每 列 代 表 
一 个 变量 。 


10.5.3 特征 变量 选取 


在 上 述 的 数据 准备 中 ,针对 客户 行为 数据 ,进行 了 数据 的 抽取 、 整 理 和 合并 等 ,生成 了 分 
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析 所 需 的 数据 宽 表 。 所 形成 的 数据 宽 表 中 ,包含 226 个 变量 ,除了 其 中 10 个 是 客户 属性 信 
息 外 ,其 余 216 个 变量 都 是 行为 特征 数据 ,这 些 变量 可 能 对 流失 有 影响 ,也 可 能 没有 。 如 果 
把 所 有 变量 都 纳入 分 析 会 降低 效率 ,而 且 无 关 变 量 还 可 能 引起 结果 的 误差 。 因 此 首先 应 该 
对 数据 宽 表 中 的 各 变量 进行 相关 性 分 析 , 找 出 每 个 变量 与 客户 流失 概率 的 相关 性 ,删除 相关 
性 较 小 的 变量 , 尽 可 能 地 降低 数据 和 模型 的 复杂 度 。 

特征 变量 筛选 的 主要 方法 包括 如 下 几 种 。 

1. 数据 质量 校 验 

经 过 对 原始 数据 的 质量 校 验 发 现 部 分 客户 的 资料 表 与 消费 行为 表 的 属性 对 应 不 上 , 造 
成 少量 客户 的 消费 行为 数据 无 法 获取 。 对 数据 宽 表 中 的 字段 进行 质量 分 析 ,发现 部 分 变量 
的 有 效 性 较 低 ,数据 无 效 是 由 于 在 生成 分 析 变 量 时 相 除 运算 的 分 母 为 零 , 这 种 情况 下 的 有 效 
性 低 表 明 绝 大 多 数 客户 在 该 变量 上 取 值 相同 ,此 时 该 变量 对 建 模 无 实际 意义 ,不 纳入 分 析 。 
通过 对 数据 质量 的 校 验 发 现 其 他 费用 趋势 、 其 他 费用 波动 、 网 间 长 途 与 IP 时 长 比例 、 网 间 长 
途 与 IP 次 数 比例 等 变量 的 数据 有 效 性 低 于 20% ,在 建 模 时 不 再 作为 分 析 变 量 。 

2. 流失 结果 初步 分 析 

从 整理 出 的 数据 宽 表 中 ,可 以 对 训练 集 的 流失 结果 进行 初步 观察 。 

3. 考察 数据 的 分 布 情况 

考查 数据 宽 表 中 所 列 变量 的 分 布 , 从 数据 分 布 状 况 再 次 查看 数据 质量 。 从 中 可 以 发 现 
异常 值 的 状况 .数据 的 离散 趋势 等 。 对 于 异常 值 需 要 分 析 其 产生 原因 ,并 判断 是 否 需要 修正 
或 剔除 ; 对 于 数据 离散 度 很 低 的 变量 ,可 以 考虑 不 纳入 分 析 变 量 。 

如 在 总 费用 中 发 现 最 小 值 为 负 , 表 明 存 在 异常 ,该 异常 是 由 于 退 费 等 原因 引起 的 ,这 种 
情况 属于 极 少 发 生 的 个 别 行为 ,在 建 模 时 可 以 考虑 剔除 。 又 如 观察 数据 离散 趋势 时 ,可 以 重 
点 考察 其 标准 差 ,平均 值 等 统计 量 。 标 准 差 反 映 了 变量 取 值 的 整体 偏差 ,如 果 偏 差 很 小 , 则 
表明 数据 的 取 值 非常 接近 。 因 从 数据 中 发 现 港澳 台 全 天 通话 次 数 、 港 澳 台 全 天 时 长 .区间 全 
天 时 长 .区间 通话 次 数 ,市 话 次 数 比 例 、 本 地 费 - 区 间 、 港 澳 长 途 金额 和 故障 次 数 等 数据 偏差 
非常 小 , 故 不 纳入 分 析 。 

4. 考查 变量 对 流失 的 影响 

要 研究 客户 的 流失 可 能 性 ,就 需要 找 出 对 流失 结果 有 重要 影响 的 变量 ,降低 数据 计 
算 的 复杂 性 。 把 流失 和 不 流失 作为 两 个 分 组 ,对 生成 的 变量 在 这 两 个 组 的 差异 进行 比 
较 , 差 异 大 的 应 作为 建 模 变 量 ,差异 小 的 对 建 模 意义 不 大 。 根 据 差异 的 显著 性 程度 ,进行 变 
量 选 取 。 

研究 变量 的 组 间 差 异 的 方法 很 多 ,如 直方 图 的 方法 。 由 图 10. 10 可 知 , 大 部 分 用 户 的 通 
话 时 长 较 小 ,时 长 越 大 的 客户 ,流失 概率 越 低 ,直观 可 知 该 变量 对 流失 是 有 影响 的 。 

5. 考查 变量 间 的 关系 

数据 宽 表 中 包含 的 变量 很 多 ,在 建 模 之 前 需要 了 解 它们 之 间 的 相关 性 。 对 于 关系 十 分 
密切 的 变量 ,在 建 模 时 可 以 选择 其 中 最 具 代表 性 的 变量 ,这 样 不 但 会 大 大 提高 运算 效率 ,更 
可 减低 变量 元 余 造成 结果 偏差 的 风险 。 根 据 经 验 , 通 话 行为 数据 中 工作 时 段 、 非 工作 时 段 、 
周末 时 段 的 综合 应 该 为 全 天 的 统计 值 , 故 在 分 析 时 可 以 去 掉 其 中 之 一 。 

经 过 数据 准备 和 特征 变量 筛选 后 ,数据 可 基本 满足 客户 流失 预测 建 模 的 要 求 。 


网 全 部 时 长 的 直方 图 
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图 10.10 全 部 通话 时 长 的 直方 图 


10.5.4 建 模 过 程 


下 面 介绍 客户 流失 预测 的 建 模 过 程 。 


1. 模型 的 选择 
现 有 的 数据 挖掘 工具 提供 了 决策 树 ,神经 网 络 、 回 归 、 关 联 、 聚 类 和 贝 叶 斯 等 多 种 方法 。 
可 以 分 别 使 用 多 种 方法 建 模 , 然 后 对 这 些 模 型 进行 比较 ,从 而 挑选 出 最 适合 客户 流失 预测 的 
方法 。 此 外 ,数据 挖掘 工具 还 提供 了 选择 建 模 方法 的 功能 ,可 自动 判别 最 优 模型 , 供 使 用 者 


参考 。 


通过 特征 变量 筛选 以 及 实际 经 验 ,最终 确 定 利用 总 费用 .区 内 费用 .区 间 费 用 、 国 内 长 
途 、 国 内 IP、 增 值 业 务 与 信息 费 及 以 上 变量 的 波动 和 趋势 变量 等 进行 流失 预测 建 模 , 如 


表 10. 26 所 示 。 
表 10.26 客户 流失 预测 的 特征 变量 

名 K do xk 2 # 
XD 电话 号 码 设备 终端 号 
总 费用 当月 总 费用 某 月 份 客户 总 费用 (优惠 后 费用 ) 
区 内 费用 当月 区 内 费用 某 月 份 客户 区 内 费用 
K 当月 区 间 费 用 某 月 份 客户 区 间 费 用 
国内 长 途 当月 国内 长 途 费 用 某 月 份 客户 国内 长 途 费 用 
国内 IP 当月 国内 IP 费用 某 月 份 客户 国内 IP 费用 
总 费用 趋势 
区 内 费用 趋势 
-去 辣 要 用 超 势 | 过 去 3 个 月 平均 值 减 PES EE 
"HWExms | 当月 值 除 以 过 去 3 个 3 4 
| E Xi 十 Xs 十 Xs 
BRE An LX, 
增值 业务 趋势 
信息 费 趋势 
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续 表 
名 称 描述 zou 
总 费用 波动 
区 内 费用 波动 
区 间 费 用 波动 “| 过 去 3 个 月 和 当月 的 4 —— erm 
国内 长 途 波动 “| 个 值 中 的 最 大 值 减 最 | iD A c rade de] 
国内 下 波动 ”| 小 值 除 以 平均 值 
增值 业务 波动 
信息 费 波动 
在 网 时 长 客户 在 网 月 份 数 菜 月 份 账 期 结束 时 客户 在 网 月 份 数 
当月 缴费 额 | SAAREM 某 月 份 客户 缴费 总 客 
联系 人 数 当月 呼叫 不 同 号 码 数 “| 。 某 月 份 客户 呼叫 不 同 号 码 个 数 
标识 流失 客户 标识 流失 客户 , 标 1, 否 则 标 0 


分 别 采用 C5.0 和 神经 网 络 两 种 算法 ,由 表 10. 27 可 知 ,就 正确 率 而 言 ,神经 网 络 模型 
预测 客户 是 否 流失 的 正确 率 较 高 ,所 以 作为 客户 流失 预测 的 模型 。 


表 10.27 C5.0 和 神经 网 络 两 种 模型 的 客户 流失 预测 正确 率 


测试 样本 数量 预测 正确 样本 数 | 预测 错误 样本 数 正确 率 

神经 网 络 10 000 8134 1866 81. 3496 

C5.0 10 000 7383 2617 73.8394 
2. 模型 建立 与 调整 


模型 建立 与 调整 是 数据 挖掘 过 程 的 核心 部 分 ,通常 由 数据 分 析 专 家 完成 。 需 要 指出 的 
是 ,不 同 的 商业 问题 和 不 同 的 数据 分 布 属性 会 影响 模型 建立 与 调整 的 策略 ,而 且 在 建 模 过 程 
中 还 会 使 用 多 种 近似 算法 来 简化 模型 的 优化 过 程 。 因 此 还 需要 业务 专家 参与 调整 策略 的 制 
定 ,以 避免 不 适当 的 优化 造成 业务 信息 丢失 。 

3. 模型 的 评估 与 检验 

应 该 利用 未 参与 建 模 的 数据 进行 模型 的 评估 ,才能 得 到 准确 的 结果 。 检 验 的 方法 是 使 
用 模型 对 已 知客 户 状态 的 数据 进行 预测 ,将 预测 值 与 实际 客户 状态 进行 比较 ,预测 正确 率 最 
高 的 模型 是 最 优 模型 。 

4. 模型 解释 与 应 用 

业务 人 员 应 该 针对 最 优 模型 进行 合理 的 解释 。 如 发 现 开 户 时 长 与 客户 流失 概率 的 相关 
度 较 高 ,利用 业务 知识 可 以 解释 为 客户 在 使 用 一 定年 限 后 需要 换 领 新 SIM 卡 ,而 这 一 手续 
的 烦琐 导致 客户 宁愿 申请 新 号 码 , 从 而 造成 客户 流失 。 通 过 对 模型 做 出 合理 的 业务 解释 ,可 
以 找 出 一 些 潜 在 的 规律 ,用 于 指导 业务 行为 。 反 过 来 ,通过 业务 解释 也 能 证 明 数 学 模型 的 合 
理性 和 有 效 性 。 

在 模型 应 用 过 程 中 ,可 以 先 选择 一 个 试点 实施 应 用 ,试点 期 间 随时 注意 模型 应 用 的 收益 
情况 。 一 旦 发 生 异 常 偏差 , 则 立即 停止 应 用 ,并 对 模型 进行 修正 。 试 点 结束 后 , 若 模 型 被 证 
明 应 用 良好 ,可 以 考虑 大 范围 推广 。 推 广 时 应 注意 ,由 于 地 区 差异 ,模型 不 能 完全 照搬 。 可 
以 先 由 集团 总 部 建立 一 个 通用 模型 ,各 省 分 公司 在 此 基础 上 利用 本 地 数据 进行 修正 ,从 而 得 


到 适用 于 本 省 的 精确 模型 。 在 模型 应 用 一 段 时 期 ,或 经 济 环境 发 生 重大 变化 后 ,模型 的 偏差 
可 能 会 增 大 ,这 时 应 该 考虑 重新 建立 一 个 适用 性 更 强 的 模型 。 


10.5.5 结果 


首先 ,利用 35 731 个 训练 样本 对 客户 流失 预测 模型 进行 训练 ,训练 结束 后 形成 了 10 个 
分 类 的 流失 概率 ,并 由 业务 人 员 根 据 各 类 别 特征 描述 其 业务 特征 ,如 表 10. 28 所 示 。 


表 10.28 流失 预测 的 结果 


类 别 客户 数 EX E E: 
350 1 7821 市 话 多 ,短信 少 。 
350 2 335 使 用 频率 很 低 , 总 费用 少 ,一 般 只 在 周末 打 打 电话 。 
类 别 3 2700 优质 客户 ,朋友 多 ,本 地 和 长 途 通 话 都 比较 多 ,尤其 网 间 长 途 多 。 
EXE 5322 优质 客户 ,本 地 长 途 费 都 高 ,短信 费 也 较 高 。 
350 5 4074 一 般 客 户 ,总 费用 偏 低 。 
类 别 6 99 高 级 客户 ,平均 通话 时 间 特 别 长 ,网 间 长 途 特别 多 ,短信 费 高 。 
类 别 7 113 主要 交 月 租 ,只 用 来 接听 电话 。 
类 别 8 10 227 一 般 客户 ,总 费用 较 高 。 
类 别 9 4342 短信 和 较 多 。 
类 别 10 698 朋友 不 多 ,通话 量 较 少 。 


然后 ,利用 测试 集 进行 测试 ,对 每 个 客户 的 流失 概率 给 出 一 个 评分 , 即 该 客户 下 个 月 的 
流失 概率 ,部 分 结果 如 表 10. 29 所 示 。 


表 10.29 流失 预测 的 部 分 结果 


客户 ID 用 户 ID 号 B 预测 流失 率 
51222893 3892381 8X X X000 0. 86 
51149757 3757337 8X X X005 0.90 
51276654 4447622 8X X X008 0.50 
51149756 3757335 8X X X010 0.90 
51073165 3764659 8X X X055 0.57 
51123422 3785384 8X X X056 0.90 
51127025 3917040 8X X X057 0.58 
51149814 3764597 8X X X058 0.91 
51122864 3764598 8XX X059 0.90 
51123477 3786508 8X X X060 0.90 
51151746 3882974 8X X X062 0.86 
51151721 3882457 8X X X063 0.66 
51126583 3907612 8X X X064 0.50 
51151720 3882455 8X X X065 0.50 
51122948 3764747 8X X X066 0.50 
51074420 3906954 8X X X067 0.91 
51246552 3885516 8X X X070 0.92 
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根据 流失 预测 的 结果 计算 出 不 同 客户 占 比 的 模型 评估 的 覆盖 率 、 准 确 率 以 及 提升 率 , 如 
图 10. 11 一 图 10.13 所 示 。 


0 1 1 " 1 
5% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 


图 10.11 提升 率 分 布 示 意图 


理想 效果 曲线 


神经 网 络 算法 
预测 效果 曲线 


标准 效果 曲线 
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10.12 提升 曲线 图 
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0 
5% 1096 20% 30% 4096 50% 60% 70% 80% 90% 100% 


10.13 覆盖 率 分 布 示意 图 


从 各 项 指标 来 看 ,模型 的 效果 较 好 。 例 如 ,前 5% 的 客户 的 流失 覆盖 率 为 22. 82 76 ,准确 
率 为 99. 97% ,说 明 通 过 上 述 过 程 建立 的 客户 流失 预测 模型 预测 每 100 个 客户 可 以 正确 识 
别 99. 97 个 ,而 正常 的 浓度 是 100 个 客户 中 有 22 个 ,而 前 20% 的 客户 中 就 将 有 90% 以 上 的 
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是 即将 流失 的 客户 。 根 据 预测 结果 按照 对 评分 高 低 给 出 的 客户 名 单 进行 营销 ,可 以 节省 营 
销 成 本 到 原来 的 五 分 之 一 ,在 降低 营销 成 本 的 同时 提高 了 客户 营销 的 成 功率 ,达到 了 客户 流 
失 预 测 的 目的 。 

在 此 基础 上 ,营销 管理 人 员 调 用 预警 汇总 表 进 行营 销 派 单 ,根据 客户 实际 流失 情况 对 模 
型 进行 评估 ,各 级 领导 查询 客户 流失 预警 情况 的 报表 ,客户 经 理 调用 所 负责 客户 的 预测 情况 
以 及 将 实际 结果 维护 到 预警 表 中 ,营业 受理 人 员 查 询 前 来 办 理 业务 的 客户 流失 预测 情况 ,以 
便利 用 业务 受理 机 会 实现 及 时 的 面对面 的 主动 营销 等 。 

尽管 客户 流失 的 原因 多 种 多 样 , 流 失 原 因 差 异 较 大 。 综 合 上 述 的 客户 流失 因素 的 定量 
分 析 以 及 抽样 问卷 调查 结果 ,可 将 客户 流失 原因 归纳 为 以 下 六 个 方面 。 

1. 经 营 管理 

1) 客户 关系 管理 人 员 配 置 不 到 位 ,客户 关系 管理 工作 缺乏 深度 和 内 涵 。 直 接 影响 到 客 
户 感知 ,增加 了 客户 流失 的 概率 。 

2) 政策 不 完善 让 代理 商 有 机 可 乘 , 如 不 收取 SIM 卡 费 ,支付 给 代理 商 的 首次 酬金 过 
高 ,让 代理 商 可 补贴 的 优惠 范围 大 ,使 新 人 网 用 户 人 网 无 任何 成 本 、 入 网 门槛 过 低 ,导致 在 网 
低 价值 客户 增加 。 针 对 新 发 展 客户 制定 出 一 些 专门 的 优惠 措施 ,而 在 网 老 客户 却 不 能 享受 ， 
造成 新 、 老 客户 的 优惠 不 平衡 ,导致 老 客 户 弃 卡 离 网 。 

3) 在 以 放 号 量 为 导向 的 绩效 考核 下 ,部 分 县 分 公司 在 一 定时 期 内 还 是 会 依赖 一 些 有 跨 
区 放 号 能 力 的 批发 商 ,在 分 配 号 源 时 也 会 倾向 于 这 些 代理 商 , 批 销 代 理 商 在 逐 级 批发 的 过 程 
中 提前 用 虚假 客户 资料 进行 开通 ,导致 了 系统 内 大 量 虚 开 客户 。 虚 假 的 客户 数据 对 于 客户 
欠 费 缺乏 足够 的 证 据 进行 追 讨 ,为 客户 欠 费 弃 卡 提供 了 便利 。 

4) 为 了 不 断 提 升 客户 的 优惠 感知 ,不断 推出 的 促销 活动 ,加 之 市 场 区 隔 的 不 明显 ,让 前 
后 参与 活动 的 客户 满意 度 降 低 ,导致 离 网 。 

2. 渠道 管理 

1) 服务 缺失 

由 于 长 期 以 来 渠道 管理 被 相对 忽视 , 故 在 人 员 配 备 和 职能 建设 上 相对 滞后 。 渠 道 管理 
人 员 的 缺乏 将 直接 影响 到 渠道 的 监管 效率 ,渠道 管理 的 职能 仅 限 于 提供 代理 商 领 卡 .酬金 审 
核 一 些 极 有 限 的 工作 。 对 渠道 主动 管理 ,如 宣传 资料 配送 .业务 知识 培训 、 巡 检 ,管理 考核 基 
本 上 是 一 种 缺失 状态 。 社 会 渠道 基本 业务 知识 了 解 不 够 全 面 ,业务 告知 、 业 务 推荐 不 准确 ， 
营销 活动 很 难 迅 速 渗透 到 社会 渠道 。 

2) 管理 粗放 

对 于 社会 渠道 的 管理 ,长 期 以 来 采用 的 是 根据 渠道 类 型 分 层 管理 的 方式 ,然而 在 具体 管 
理 形式 上 则 缺乏 “精细 化 管理 ”, 其 具体 表现 在 对 社会 渠道 仍然 使 用 相对 单一 的 激励 手段 。 
但 对 其 服务 水 平 提升 ,管理 规范 等 方面 则 缺乏 效果 ,并 且 容 易 造 成 经 销 商 的 短期 逐 利 行为 ， 
但 无 法 对 其 形成 捆绑 效果 ,其 忠诚 度 的 巩固 也 缺乏 有 效 的 激励 体系 保证 。 

3) 经 营 投机 

通常 运营 商 放 号 酬金 的 支付 分 为 三 次 ,第 一 次 代理 商 在 领导 即 可 返 给 酬金 比率 达 70 06 
的 领导 酬金 ,首次 酬金 过 高 ; 第 二 次 为 在 网 三 个 月 后 ; 第 三 次 为 在 网 半年 后 。 首 次 领 号 酬 
金 的 支付 方式 导致 各 层级 批发 商 在 逐 级 批发 中 都 有 可 观 的 利润 空间 ,而 最 项 端的 代理 商 只 
需要 拿 到 二 次 或 三 次 在 网 酬金 就 已 足够 丰厚 了 。 这 样 也 就 造成 在 逐 级 批发 前 批发 商 需 将 号 
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码 预先 进行 虚 开 ,而 在 逐 级 批发 的 过 程 中 各 层级 代理 商 将 酬金 补贴 至 号 码 中 低 面值 销售 , 诱 
导 客 户 弃 卡 重新 人 网 。 

3. 竞争 

竞争 体现 在 策反 、 促 销 优惠 和 品牌 服务 等 方面 。 

1) 策反 

在 通信 市 场 的 激烈 竞争 格局 下 ,各 运营 商 之 间 的 竞争 也 趋 于 多 样 化 ,主要 包括 : 

CD 宣传 竞争 。 利 用 客户 生活 质量 提升 ,追求 自然 ,时尚 、 健 康 的 消费 理念 ,例如 COMA 
大 力 宣传 环保 \ 绿 色 、 常 打头 不 痛 等 。 

(2) 客户 质量 的 竞争 。 各 运营 商 均 投 入 大 量 的 资源 开展 针对 高 端 客户 、 法 人 团体 客户 
有 目的 的 拉拢 、 回 挖 。 

(3) 渠道 的 竞争 。 得 渠道 者 得 天 下 , 谁 先 掌握 了 渠道 , 谁 就 掌握 了 市 场 竞 争 的 主动 权 。 
针对 一 些 大 的 代理 商 或 非 排他 性 代理 商 利用 高 放 号 酬金 及 客户 在 网 一 年 之 内 的 话费 分 成 进 
行 拉拢 ,而 代理 商 受 利益 驱使 ,造成 渠道 阶段 性 的 客户 推荐 导向 ,以 从 中 件 利 ,并 对 这 些 代理 
商 掌握 的 客户 资源 进行 回 挖 。 

2) 促销 优惠 

在 激烈 的 市 场 竞争 下 ,各 运营 商 均 在 大 力 投入 成 本 开展 各 式 各 样 的 市 场 营销 ,营销 活动 
中 新 老 客 户 优惠 不 平衡 ,为 了 促进 新 增 , 花 了 很 大 的 营销 成 本 ,对 三 个 月 以 上 的 在 网 客户 基 
本 上 没有 任何 营销 优惠 , 销 号 .新 人 网 成 本 为 零 ,甚至 小 于 零 ,导致 客 户 频繁 换 号 。 

3) 品牌 服务 

各 品牌 之 间 的 服务 区 隔 不 明显 ,客户 对 品牌 的 价值 感知 不 强 。 且 频繁 的 价格 变动 及 促 
销 优惠 ,在 吸引 新 人 网 客户 的 同时 ,必然 损害 老 客户 的 利益 ,从 而 导致 老 客 户 的 品牌 忠诚 度 
下 降 , 资 费 便宜 仍 是 客户 购 卡 的 主要 驱动 因素 之 一 ,客户 品牌 感知 度 较 低 ,客户 品牌 意识 不 
强 , 对 移动 产品 的 理解 仍 停留 在 资费 .套餐 上 。 最 终 导 致 客户 改 为 低 资 费 套 餐 或 受 竞争 对 手 
低 资 费 吸引 而 转 网 。 

4. 产品 质量 

产品 质量 体现 在 网 络 覆 盖 率 .通话 质量 .业务 提供 和 终端 质量 等 多 方面 。 

1) 网 络 覆盖 

虽然 总 体 上 而 言 ,网 络 覆盖 较 好 ,但 在 一 些 偏远 的 农村 还 存在 盲点 。 

2) 通话 质量 

由 于 载 频 不 足 、 新 建站 容量 不 足 、 新 建站 入 网 慢 、 话 务 集中 、 城 区 楼 宇 密集 导致 覆盖 育 
区 、 客 户 活动 区 域 大 导致 通话 质量 波动 还 有 客户 手机 终端 质量 问题 等 导致 客户 对 通话 质量 
不 满 ,导致 客户 满意 度 降 低 而 离 网 。 

3) 业务 提供 

由 于 系统 支撑 问题 ,客户 使 用 的 资费 套餐 不 能 实现 网 内 互 转 , 而 促使 客户 重 入 网 选择 新 
的 资费 套餐 。 

4) 终端 质量 

由 于 手机 终端 质量 ,性 能 不 一 ,客户 对 终端 质量 产生 的 通话 质量 感知 不 一 ,加 之 竞争 对 
手 的 低 端 购 机 及 价格 战 的 吸引 ,导致 客户 转 网 。 

5. 服务 水 平 

20 世纪 80 年 代 , 影 响 消费 理念 的 决定 性 因素 是 价格 ; 到 了 20 世纪 90 年 代 , 人 们 的 消 


费 理念 由 价格 转向 追求 具有 卓越 品质 的 优质 产品 ; 随 着 社会 的 不 断 发 展 进 步 , 人 们 的 消费 
理念 也 发 生 了 根本 的 改变 。 今天, 人们 的 消费 理念 除 价 格 、 品 质 外 ,又 增加 一 项 全 新 的 需 
求 一 一 服务 。 服 务 是 品牌 维护 社会 形象 ,赢得 市 场 信誉 ,建立 客户 忠诚 度 的 基础 。 服 务 质量 
的 好 坏 ,将 直接 影响 品牌 的 价值 , 据 营销 机 构 的 市 场 调查 分 析 , 服 务 好 的 产品 比 服务 差 的 产 
品 售 价 高 出 10%% ,而 营业 额 .客户 规模 、 客 户 忠诚 度 却 增长 较 快 ,市 场 占 有 率 年 增 6%% ,销售 
利润 增 12% 。 从 某 种 角度 来 看 ,消费 者 在 选择 同类 产品 消费 时 ,已 把 商家 是 否 建立 了 较 优 
良 、 完 善 的 一 体 化 服务 体系 作为 较 重 要 的 衡量 标准 。 

客户 面 对 三 家 运营 商 , 可 选 的 服务 较 多 ,因此 出 现 更 加 频繁 的 离 网 行为 。 一 般 而 言 , 离 网 
客户 可 分 为 外 部 离 网 ( 销 号 ) .内 部 转 网 和 沉默 (基本 没有 消费 产生 ) 三 种 。 由 于 移动 通信 市 场 
资费 差异 渐渐 缩小 ,服务 对 客户 的 影响 越 来 越 大 ,不 愉快 的 服务 经 历 . 服 务 功 能 的 缺失 都 有 可 
能 导致 客户 离 网 ,而 且 由 于 服务 原因 离 网 的 客户 更 难 挽留 ,一 旦 离 网 要 让 其 回 网 更 加 困难 。 

服务 水 平 包括 计 费 准确 性 ,服务 的 手段 .态度 和 效率 等 多 方面 。 

1) 计 费 误解 /误差 

客户 资费 .账单 收取 错误 或 客户 对 资费 套餐 理解 错误 ,但 营销 服务 前 台 并 未 给 客户 解释 
清晰 ,使 客户 对 计 费 产生 不 信任 感 ,从 而 导致 客户 离 网 。 客 户 对 预存 业务 按 月 返 款 理解 不 清 
晰 ,导致 客户 未 及 时 缴费 , 欠 费 销 号 后 系统 将 不 继续 返 款 ,从 而 导致 客户 离 网 销 号 。 随 着 预 
存 营销 业务 的 增多 ,此 部 分 客户 呈现 增长 趋势 。 

2) 服务 人 员 态 度 /效率 

服务 人 员 仅 有 服务 意识 ,并 未 从 心理 上 .行为 上 去 自发 为 每 个 客户 提供 优质 服务 。 个 人 
综合 素质 差异 ,公司 业务 流程 设计 的 复杂 性 及 系统 的 有 力 支撑 均 影响 到 服务 人 员 的 效率 。 

3) 终端 售后 

在 营销 活动 开展 后 ,对 客户 的 使 用 跟 进 不 到 位 ,未 能 及 时 处 理 客户 的 终端 售后 ,特别 是 
低 端 机 营销 ,客户 便 会 弃 卡 重新 入 网 。 

6. 客户 行为 

客户 离 网 的 原因 复杂 多 样 , 各 种 离 网 原因 之 间 存 在 交叉 ,有 的 甚至 互 为 因果 , 按 离 网 行 
为 方式 可 分 为 主动 离 网 和 被 动 离 网 。 

1) 主动 离 网 

主动 离 网 的 原因 主要 包括 : 

对 费用 敏感 。 一 是 增值 业务 的 定制 取消 流程 复杂 不 透明 ,客户 因 高 额 增值 业务 费用 被 
迫 销 号 ; 二 是 产品 选择 不 当 , 对 产品 互 转 不 了 解 或 产品 互 转 受 限制 , 便 选择 重新 人 网 ; 三 是 
客户 希望 使 用 的 资费 套餐 不 能 带 号 转 入 ,促使 客户 重 入 网 加 入 新 的 资费 套餐 ; 四 是 长 途 、 漫 
游资 费 较 高 而 产生 离 网 ; 五 是 新 入 网 优惠 或 竞争 对 手 更 加 优惠 ,新 入 网 成 本 远 远 低 于 继续 
使 用 现 有 产品 ,引发 客户 离 网 。 

业务 服务 提供 不 到 位 。 一 是 业务 办 理 流程 复杂 ,业务 办 理 门 限 导致 客户 弃 卡 新 入 网 ; 
二 是 客户 满意 度 降 低 如 对 投诉 处 理 不 满意 或 是 服务 提供 便利 性 、 及 时 性 不 是 很 到 位 ,导致 客 
户 离 网 ; 四 是 在 农村 偏远 区 域 存 在 缴费 难 、 欠 费 易 , 弃 卡 入 网 更 实惠 ,客户 为 了 逃避 欠 费 而 
离 网 的 现象 是 较为 明显 。 

此 外 ,还 有 一 些 其 他 原因 。 一 是 流动 人 员 离开 本 地 ,客户 换 号 产生 离 网 ; 二 是 对 客户 因 
手机 丢失 /损坏 ,对 业务 不 了 解 . 不 熟悉 而 只 知道 新 购 卡 而 重新 入 网 或 者 是 受 新 入 网 优惠 的 
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吸引 产生 离 网 ; 三 是 号 码 不 理想 , 换 号 产生 离 网 ; 四 是 社会 代理 渠道 鼓励 换 卡 离 网 。 

2) 被 动 离 网 

被 动 离 网 的 原因 主要 是 欠 费 销 号 ,根据 主观 意愿 也 可 分 为 主动 和 被 动 , 欠 费 销 号 中 主动 
离 网 占据 了 离 网 客户 的 绝 大 部 分 ,被 动 销 号 比例 极 少 。 

欠 费 被 动 销 号 的 主要 原因 是 客户 有 多 张 卡 或 是 由 于 工作 原因 暂时 离开 本 地 ,对 于 不 使 
用 的 号 卡 客户 未 办 理 停机 保 号 业务 或 办 理 停机 保 号 业务 后 预存 话费 不 足 , 导 致 预存 话费 抵 
扣 完 后 号 卡 欠 费 离 网 。 

欠 费 主动 销 号 主要 原因 是 客户 为 了 逃避 欠 费 ,而 重新 购 卡 以 得 到 更 多 的 优惠 而 选择 主 
动 弃 卡 离 网 。 对 低 端 客户 而 言 , 其 离 网 重 入 网 的 成 本 是 重新 购买 SIM 卡 的 费用 和 变换 手机 
号 码 后 通知 朋友 所 需要 的 费用 或 负 效 用 ; 客户 的 收益 包括 : 

(1) 新 人 网 优惠 话费 ,或 者 新 旧 资费 套餐 的 优惠 ; 

(2) 代理 商 的 让 利 ; 

G) 欠 费 滞纳金 郁 免 收益 ; 

(4) 平均 单个 客户 欠 费 中 未 被 追缴 的 部 分 。 

因此 ,客户 净 收 益 是 上 述 四 部 分 收益 减 去 客户 重 入 网 成 本 的 余额。 


10.5.6 应 用 


建立 模型 的 最 主要 目的 就 是 要 应 用 到 实际 中 ,客户 流失 预测 模型 也 是 为 了 在 实际 工作 
中 及 时 对 在 网 客户 未 来 的 一 种 可 能 行为 做 出 比较 准确 的 预测 ,使 得 运营 商 能 够 及 时 地 采取 
相应 措施 ,挽留 这 部 分 可 能 流失 的 客户 中 有 价值 的 群体 ,增强 企业 的 竞争 力 , 增 加 企业 的 
收益 。 

1. 流失 影响 因素 的 分 析 

根据 流失 预测 模型 的 输出 结果 ,结合 企业 外 部 竞争 环境 的 变化 寻找 影响 客户 流失 的 环 
境 原因 。 通 信 企 业 从 深入 分 析 预 测 模型 结果 收集 企业 外 部 竞争 情报 和 对 已 流失 客户 一 对 
一 沟通 等 方面 人 手 , 将 数据 分 析 和 环境 分 析 相 结合 , 找 出 造成 客户 流失 的 真正 原因 。 

根据 以 上 分 析 , 得 出 影响 客户 流失 因素 的 相对 重要 性 ,如 图 10. 14 所 示 。 
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图 10.14 客户 流失 因素 分 析 


(1) 本 地 通话 总 时 间 和 客户 的 ARPU 值 是 鉴别 客户 失 倾向 的 两 个 最 主要 的 指标 ,在 客 
户 流失 的 决策 树 模型 中 ,通话 时 间 短 的 客户 的 流失 比例 要 显著 高 于 通话 时 间 长 的 客户 , 低 
ARPU 值 客户 流失 倾向 高 于 ARPU 值 客户 ,因此 这 类 流失 群体 中 ,例如 学 生 , 外 来 务工 人 员 


离开 本 地 是 造成 流失 的 主要 因素 ;从 消费 行为 上 看 漫游 指标 是 客户 流失 的 一 个 显著 性 指标 ， 
漫游 时 间 长 的 外 地 客户 是 一 类 高 流失 倾向 的 客户 群 。 

(2) 同一 样本 客户 在 不 同 的 月 份 消 费 行 为 存在 一 定 的 差异 ,从 决策 树 的 分 类 效果 看 , 离 
流失 时 间 最 近 的 流失 客户 消费 行为 更 能 体现 流失 特征 。 

(3) 决策 树 分 类 模型 具有 一 定 的 时 效 性 ,不 同月 份 流失 样本 建立 的 决策 树 模型 存在 显 
著 的 差异 ,因此 进行 客户 流失 的 预测 必须 考虑 时 间 效 应 。 由 于 采用 非 等 比例 的 随机 抽样 方 
式 , 决 策 树 中 的 流失 比例 不 是 真正 的 客户 流失 比例 。 第 一 个 原因 是 从 建立 的 决策 树 模型 来 
看 ,分 类 客户 中 最 高 的 流失 比例 在 12 光 左右 ,不 能 直接 进行 客户 流失 预测 。 第 二 个 原因 在 
建 模 中 ,数据 不 够 完备 ,缺乏 如 客户 的 个 人 信息 ,投诉 信息 ,缴费 信息 等 相关 数据 。 

2. 营销 策略 制定 

营销 活动 要 取得 良好 的 效果 ,必须 充分 了 解 客户 的 心理 ,设计 出 适合 的 营销 策略 。 针 对 
客户 流失 原因 和 因素 ,可 以 归结 为 以 下 几 点 : 

(1) 客户 的 基本 属性 ,如 性 别 、 年 龄 .在 网 时 间 、 职 业 爱好 、 籍 贯 . 人 网 品牌 与 号 码 。 注 册 
服务 等 级 (SLA) 等 ,这 些 资 料 在 客户 登记 入 网 或 客户 调查 等 过 程 中 得 到 ,并 永久 保存 在 客户 
资料 数据 库 中 。 不 同 背 景 的 客户 有 不 同 的 社会 行为 特征 和 爱好 ,如 职业 影响 收入 ,年龄 影响 
产品 购买 类 型 等 。 

(2) 客户 的 通话 情况 ,如 通话 类 型 .平均 通话 时 间 、 通 话 对 象 及 亲情 号 码 .通话 地 点 、 漫 
游 类 型 .数据 业务 使 用 情况 .消费 积分 .客户 价值 类 型 .客户 VPMN 群 等 在 计 费 中 心 客户 消 
费 话 单 和 账单 中 可 以 获取 客户 消费 的 详细 信息 。 

O 客户 服务 情况 , 指 客户 通过 投诉 渠道 或 客户 服务 界面 (如 营业 厅 、 网 站 、 客 户 经 理 
等 ) 进 行 的 有 关 缴 费 、 服 务 投诉 /建议 的 情况 。 客 户 满意 度 高 ,投诉 就 少 ; 查询 月 消费 详细 清 
单 的 客户 对 资费 政策 通常 很 敏感 等 。 

(4) 网 络 运行 质量 情况 ,包括 通信 网络 的 质量 ,小 区 或 无 线 信道 通话 接 通 率 等 影响 客户 
消费 的 网 络 因 素 。 网 络 维护 部 门 通过 对 交换 机 进行 话 务 测量 可 以 获得 网 络 运 营 的 详细 分 析 
报告 。 网 络 质量 是 移动 通信 企业 的 生命 ,是 客户 服务 与 业务 领先 的 基础 。 

C5). 资费 政策 与 技术 进步 ,不 同 运营 商 的 资费 高 低 改变 等 也 是 影响 流失 的 一 个 重要 因 
素 。 技 术 革 新 会 带动 一 大 批 追 新 潮 客 户 使 用 最 新 技术 产品 。 

选择 待 挽留 目标 客户 和 赢 回 目标 客户 ,制定 客户 挽留 策略 和 客户 赢 回 策略 。 市 场 部 门 
针对 这 些 名 单 ,通过 打 关 怀 电话 、 设 计 优 惠 套 餐 、 送 小 纪念 品 等 多 种 方式 来 挽留 流失 倾向 大 
的 客户 ,最 大 限度 地 降低 客户 流失 率 。 

3. 营销 活动 后 评估 

实施 营销 方案 ,并 对 方案 的 实施 效果 进行 跟踪 和 评估 。 需 要 指出 的 是 ,在 实施 目标 活动 
后 ,要 根据 市 场 环境 的 变化 和 客户 行为 的 新 特点 修正 客户 流失 预测 模型 。 因 此 ,整个 客户 流 
失 分 析 流 程 应 该 是 一 个 往复 的 循环 过 程 。 


10.6 WAP 日 志 挖 掘 


中 国 通信 业 的 快速 发 展 令 世界 瞩目 .截至 2012 年 12 月 底 , 中 国 移动 电话 用 户 数 达 
11. 04 亿 。 全 球 移动 电话 用 户 数 约 62 亿 , 普 及 率 达 87%; 中 国 互 联网 用 户 数 达 到 5. 64 亿 ， 
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普及 率 达 42.1%。 目 前 ,中 国 的 移动 手机 用 户 数 和 互联 网 用 户 数 均 居 世界 第 一 。 随 着 3G 
(the 3rd Generation) 牌 照 的 发 放 ,3G 的 到 来 加 速 了 移动 通信 和 互联 网 的 融合 ,并 呈现 三 个 
趋势 , 即 互联 网 接 入 的 移动 化 ,移动 业务 的 互联 网 化 、 互 联网 业务 的 移动 化 。 

由 于 传统 语音 业务 的 价格 持续 下 降 , 促 使 运营 商 开 始 转 变 收 入 重点 ,将 数据 业务 逐步 调 
整 为 未 来 利润 的 主要 来 源 ,数据 业务 被 普遍 认为 是 电信 运营 商 的 下 一 个 金 矿 。 而 WAP 
(Wireless Application Protocol) 业 务 是 当前 网 络 环境 下 最 重要 的 数据 业务 之 一 ,几乎 所 有 
的 手机 终端 均 内 置 了 WAP 浏览 器 ,使 得 大 量 成 熟 的 数据 业务 以 WAP 作为 重要 的 推广 汇 
道 ,WAP 业务 在 运营 商 的 业务 架构 中 地 位 越 来 越 重要 ,其 用 户 数量 也 飞速 发 展 。 但 是 随 着 
用 户 数量 的 快速 增长 , WAP 业务 质量 却 没 有 跟 上 用 户 发 展 的 脚步 。WAP 业务 同 质 化 严 
重 ,SP(Service Provider, 服 务 提供 商 ) 的 注意 力 集中 在 如 何 从 用 户 身 上 获得 更 多 的 话费 ,其 
至 利用 WAP 业务 中 的 一 些 技术 漏洞 强行 将 用 户 绑 定 , 引 起 大 量 的 投诉 。 但 随 着 运营 商 对 
WAP 业务 管理 的 逐步 规范 ,对 WAP 用 户 的 使 用 行为 进行 深入 挖掘 成 为 必然 ,并 具有 一 定 
的 现实 意义 。 


10.6.1 定义 


WAP 日 志 在 一 定 程 度 上 反映 了 WAP 用 户 的 使 用 行为 习惯 和 特征 ,主要 包括 系统 日 志 
和 用 户 访问 日 志 。 系 统 日 志 记 录 了 WAP 服务 器 在 运行 过 程 中 系统 的 各 种 状态 ,为 改进 服 
务 器 性 能 .故障 排除 等 提供 了 重要 的 参考 依据 ,可 以 帮助 系统 维护 人 员 人 快速 定位 故障 并 解 
决 ; 用 户 访问 日 志 记录 了 用 户 浏览 WAP 页 面 时 的 各 种 信息 ,包括 用 户 访问 时 间 、 访 问 页 面 
地 址 .访问 机 型 参数 ,用户 TP 地 址 和 用 户 标识 等 。 

不 同 的 系统 会 产生 不 同 格式 的 WAP 日 志 , 根 据 系统 性 能 需求 系统 管理 员 可 以 配置 服 
务 器 产生 日 志 的 复杂 度 。 在 服务 器 空间 有 限 且 性 能 不 高 的 情况 下 ,可 以 缩减 日 志 参 数 , 仅 记 
录 与 用 户 访问 信息 相关 的 内 容 。 在 服务 器 硬件 条 件 允 许 的 情况 下 ,建议 尽 可 能 多 地 记录 用 
户 访问 参数 ,因为 在 日 志 提 取 阶 段 很 难 客观 判断 日 志 参 数 在 未 来 挖掘 中 的 价值 , 尽 可 能 多 地 
保留 以 避免 具有 潜在 价值 的 数据 丢失 。 

这 里 的 WAP 日 志 是 基于 微软 公司 的 Internet Information Services 5.0 生成 的 ,按照 
日 期 对 日 志 进行 命名 ,每 天 的 用 户 访 问 日 志 存储 在 一 个 文本 文件 中 ,例如 20080601. txt。 H 
志文 件 中 各 参数 之 间 用 空格 分 开 ,一 行为 一 个 用 户 的 访问 行为 。 

WAP 日 志 的 具体 参数 名 称 和 含义 如 表 10. 30 所 示 。 


R10.30 WAP 日 志 参 数 名 称 和 含义 


参数 名 称 含义 x 能 xo ø 
Date 日 期 用 户 访问 WAP 的 日 期 例如 2013-07-25 
Time 时 间 用 户 访问 WAP 的 时 间 例如 00:00:01 
c-IP 用 户 访问 IP | 访问 用 户 的 IP 地 址 例如 211. 137. 167. 133 
CS-username “| 访问 用 户 名 访问 WAP 的 用 户 名 
s-IP 服务 器 端 IP ”| 用 户 访问 WAP 页 面 对 应 的 服务 器 端 地 址 | 例如 211. 157. 8. 68 


参数 名 称 & A 功 能 zx m 
s-port 服务 器 端口 用 户 访问 WAP 页 面 对 应 的 服务 器 端口 | 例如 8080 
CS-method 请 求 方式 客户 端 操作 请 求 的 种 类 例如 GET,POST 
CS-URLstem | 请 求 内 容 名 称 | 用 户 访问 的 WAP 页 面 地 址 例如 /desk/cxzd/intro. asp 


例如 MISC_ID=999&MISC_ 
SessionID= 999 

sc-status 状态 代码 用 户 访问 WAP 页 面 的 状态 代码 例如 200,302 

CS-User-Agent | 用 户 代理 用 户 访 问 WAP 所 使 用 的 手机 型 号 例如 Nokia3108 


CS-URI-query | 请 求 内 容 参数 | 用 户 访问 WAP 页 面 地 址 所 带 的 参数 


10.6.2 数据 准备 


数据 准备 阶段 的 工作 主要 是 选择 合适 的 数据 源 ,整理 分 析 所 需 的 WAP 日 志 , 对 原始 数 
据 进行 检查 和 预 处 理 , 生 成 新 的 衍生 变量 ,并 整理 成 适合 分 析 使 用 的 数据 宽 表 。 

数据 准备 过 程 分 为 如 下 几 个 步 又。 

1. 选择 数据 分 析 范围 

根据 需求 选取 移动 梦 网 某 一 WAP 产品 2008 年 5 一 8 月 连续 四 个 月 的 用 户 访问 日 志 作 
为 分 析 对 象 。 

2. 收集 原始 数据 

WAP 产品 日 志 是 最 原始 文件 ,和 互联 网 网 站 日 志 类 似 ,其 中 记录 了 用 户 在 浏览 WAP 
页 面 过 程 中 的 大 量 信息 。 不 同 的 服务 器 系统 所 产生 的 日 志 略 有 不 同 ,大 多 都 包括 用 户 IP 地 
址 ,访问 终端 类 型 ,访问 时 间 和 所 访问 页 面 地 址 等 ,而 移动 梦 网 WAP 产品 同时 还 可 以 获得 
用 户 手机 号 码 , 这 是 区 别 于 互联 网 日 志 的 一 个 重要 特点 , 即 电信 业务 最 大 的 特质 一 一 用 户 个 
性 化 标识 。 针 对 用 户 的 个 性 化 行为 分 析 将 紧密 围绕 着 这 一 标识 进行 。 

3. 数据 清洗 

日 志 一 般 存 储 于 文本 文件 中 ,虽然 大 多 都 是 按照 一 定 规则 记录 的 ,但 在 今后 的 分 析 中 通 
过 文本 文件 方式 进行 信息 的 查找 较为 不 便 , 故 需要 把 日 志 内 容 导 入 到 数据 库 中 或 者 更 好 的 
存储 介质 中 以 备 操作 。 此 过 程 尽量 避免 将 日 志 中 含有 的 信息 删 掉 ,让 日 志 中 的 信息 尽量 完 
整地 在 新 存储 介质 中 得 到 展现 。 

4. 检查 数据 质量 

可 以 通过 对 所 提取 数据 的 时 间 分 布 进行 直观 观察 ,对 异常 时 间 点 进行 针对 性 分 析 ; 也 
可 以 观察 所 提取 参数 的 数值 分 布 ,对 其 可 靠 性 进行 评估 。 由 于 用 户 使 用 WAP 的 行为 具有 
较 强 的 周期 性 ,可 以 比 对 不 同 周期 的 相同 时 间 点 ,对 异常 数据 进行 检验 。 

5. 计算 中 间 变 量 

对 WAP 用 户 的 使 用 行为 数据 进行 加 工 处 理 ,生成 新 的 衍生 变量 。 

6. 合并 生成 宽 表 

按照 用 户 ID 合并 地 域 .终端 、 产 品 内 容 和 用 户 四 类 指标 ,生成 一 张 数 据 宽 表 ,其 中 每 行 
代表 一 个 用 户 , 每 列 代 表 一 个 变量 ,如 表 10. 31 所 示 。 
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表 10.31 数据 宽 表 中 各 指标 变量 
名 称 * Xx 功 能 计算 方法 
卓志 中 用 户 参 数 的 前 四 位 标识 
地 域名 称 EDER 标识 分 析 结果 所 对 应 的 省 份 | 用 户 所 在 区 域 ,可 通过 对 照 区 域 
编号 表 确 定 访问 用 户 所 在 区 域 
数据 产生 的 时 间 , 以 天 为 | 反映 产品 运营 过 稳 中 的 时 间 | 
时 间 iva Bien 日 志 中 的 时 间 参 数 
- ANAE] -o HAERERE ANETE, 
ma IM xp WAP eaae eei M | 计算 当天 访问 用 户 数 ,再 与 之 前 
总 数 累计 用 户 数 相 加 
NEEMLUELIPPEIOEDELEZUDEEDICEPCDDELITDIIS 
产品 的 用 户 数 户 数 计算 得 到 
新 一 说 览 用 | 统计 期 内 浏览 用 户 数 较 | 衡量 浏览 WAP 产品 的 用 户 数 
户 数 前 一 日 增加 的 数量 。 | 量变 化 情况 ,常用 于 异常 检验 | 当日 与 前 “日 浏览 用 户 数 之 差 
Bs ld 用 户 订阅 成 功 后 ,访问 频道 日 志 
有 过 订阅 频道 行为 的 用 PS | 文件 将 记录 用 户 所 访问 的 频道 
订阅 用 户 数 | > 采用 类 似 于 RSS BT a a E MERI 
A ERU Slim A 
行 频道 订阅 ) 
描述 用 户 对 价格 敏感 的 程度 ， 
订购 套餐 用 | 以 及 对 收费 频道 的 认可 度 (该 | 计算 日 志文 件 中 访问 “订购 成 
户 数 /收费 E WAP 分 为 收费 频道 和 免费 | 功 "页 面 的 用 户 数 进而 得 到 当天 
地 | 用 户 数 频道 两 种 ,对 于 优质 内 容 用 户 | 订购 套餐 用 户 数 
域 需要 付费 才能 浏览) 
类 | 新 增收 费用 描述 收费 用 户 数 的 变化 情况 ,可 | 计算 当日 收费 用 户 数 和 前 一 日 
户 数 当日 新 增 的 收费 用 户 数 | 了 解 WAP 产品 收入 的 变化 趋势 | 收费 用 户 数 之 差 得 到 
描述 用 户 对 每 日 更 新 内 容 的 
_ 兴趣 程度 (该 WAP 产品 采用 
EE nea KUARERE Jin a n PO EA EM 
内 容 感 兴趣 再 点 击 浏览 完整 
的 文章 内 容 的 模式 ) 
主动 浏览 用 | 主动 浏览 用 户 在 浏览 用 | 反映 对 WAP 产品 感 叉 趣 的 | 主动 浏览 用 户 数 除 以 浏览 用 
户 占 比 Pie 用 户 占 整体 用 户 群 的 比例 P% 
测 览 用 户 | 浏览 用 户 在 累计 访问 用 | 用 户 对 WAP 产品 整体 的 认 浏览 用 户 数 除 以 累计 访问 用 
占 比 户 的 占 比 知 度 户 数 
Em 计算 所 有 用 户 访问 详细 页 面 时 
Wm mxowmam | 用 户 对 产品 内 容 的 兴趣 程度 产生 的 页 面 参数 的 总 数 ,然后 除 
以 访问 用 户 数 
大 芍 订阅 频 | 票 计 访 问 用 户 中 平均 每 | 用 户 对 于 WAP 产品 的 频道 | 订阅 用 户 数 除 以 累计 访问 用 
道 数 。 “| 个 用 户 订阅 频道 数量 。 | 内 容 的 兴趣 度 户 数 
反映 每 日 用 户 深 加 频道 的 活 区 
,针对 此 变量 的 研究 可 以 
得 出 用 户 心理 的 周期 性 规律 
LUTTE SLUT EDILIEE T3 EE 3 T0 
PE 。 px 情况 


续 表 


名 称 4 x 功 能 计算 方法 
用 户 访问 WAP 服务 器 时 ,日 志 
会 记录 用 户 的 user-agent 即 手机 
终端 名 称 “| 数据 对 应 的 终端 名 称 | 标识 分 析 结 果 对 应 的 终端 | 标识 ,简称 UA。 利 用 UA 与 终 
端 名 称 的 对 应 表 便 可 得 到 准确 
的 终端 型 号 
数据 产生 的 时 间 , 以 天 为 | 反映 产品 运营 过 程 的 变化 
时 间 pe sie 日 志 中 的 时 间 参 数 
i 从 产品 投入 运营 至 今 , 曾 PETA 对 于 不 同型 号 终端 的 用 户 行为 日 
ma LM 经 通过 终端 访问 WAP nim SIETRIUERE RERISEUUBUR 
产品 的 用 户 总 数 户 数 ,再 与 之 前 累计 用 户 数 相 加 
gpp EAEAN | B D I WAP 产品 的 用 | 对 用 户 行为 数据 基于 用 户 标识 这 
过 WAP 产品 的 用 户 数 | 户 数 行 排 重 ,可 得 到 当天 浏览 用 户 数 
统计 期 内 通过 终端 浏览 | 衡量 各 终端 用 户 浏览 产品 的 | 
Pi (Uto RP SEREN.— FOR [LEG OR aS e n iC PM 
的 数量 及 异常 检验 
用 户 订阅 成 功 访问 频道 时 ,日 志 
订阅 用 户 直 | 革 终 喘 有 过 订阅 频道 行 | 各 终端 用 户 订阅 频 进 的 活 中 | 将 记录 用 户 所 访问 的 闫 过 参 数 
为 的 用 户 数 程度 根据 参数 即 可 判断 用 户 是 否 为 
订阅 用 户 
DIET IT 以 UA 为 标识 计算 日志 中 访问 了 
A gp IT “订购 成 功 "页 面 的 用 户 数 ,可 得 
端 | 用 户 数 到 当天 某 终端 订购 套餐 用 户 数 
类 | 新 增收 费用 | 统计 期 内 某 终 端 新 增 的 | 某 终 端 收费 用 户 数 的 变化 | 某 终端 的 当日 收费 用 户 数 减 去 
户 数 收费 用 户 数 情况 前 一 日 收费 用 户 数 
主动 涧 览 用 | 某 终端 用 户 浏览 详细 内 | 各 终端 用 户 对 每 日 更 新 内 容 | 提取 日 志 中 某 终端 访问 详细 内 
户 数 容 的 数量 的 兴趣 程度 容 页 面 的 行为 记录 
主动 浏览 用 | 菜 终 端 主 动 浏 览 用 户 在 | 反映 某 终 端 对 WAP 产品 感 叉 | 主动 浏览 用 户 数 除 以 浏览 用 
户 占 比 “| 浏览 用 户 的 占 比 趣 的 用 户 占 整体 用 户 群 的 比例 | 户 数 
浏览 用 户 | 某 终端 浏览 用 户 数 在 村 | 某 终端 用 户 对 WAP 产品 整 | 浏览 用 户 数 除 以 累计 访问 用 
m 计 访问 用 户 的 占 比 | 体 的 认 知 度 户 数 
dir 计算 菜 终 端的 所 有 用 户 访问 详 
Rem kommt | 用 户 对 产品 内 容 的 兴趣 程度 细 页 面 产生 的 页 面 参数 的 总 数 ， 
然后 除 以 访问 用 户 数 
ABIRE | 各 终端 用 户 对 于 WAP 产品 | 订阅 用 户 数 除 以 累计 访问 用 
道 数 的 频道 内 容 的 兴趣 度 户 数 
通过 日 志文 件 对 添加 频道 成 功 
添加 频道 用 | 统计 期 内 某 终端 添加 频 | 每 日 用 户 添 加 频道 的 活跃 | 页 面 的 访问 记录 ,以 终端 型 号 、 
户 数 。 “| 道 的 用 户 数 程度 用 户 手机 号 为 标识 ,计算 添加 频 
道 用 户 的 总 数 
删除 频道 用 | 统计 期 内 某 终端 删除 频 
Pi 某 终端 用 户 删 除 频道 的 情况 
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续 表 


名 称 4 Xx 功 能 计算 方法 
时 间 数据 产生 的 时 间 ,以 天 为 反应 频道 数据 的 变化 趋势 。 | 日 志 中 的 时 间 参 数 
统计 单位 
用 户 访问 WAP MA ES. EG 
" | 会 记录 用 户 所 访问 的 频道 参数 ， 
MARI ”| 数据 对 应 的 频道 名 称 。 | 标识 分 析 结 果 对 应 的 频道 EM 
可 知 用 户 访问 的 频道 名 称 
Mor wap sena m | 先 利用 用 户 访问 记录 得 出 所 访 
频道 类 型 “| 频道 的 分 类 iie 问 频道 的 参数 ,再 利用 频道 参数 
HP RUE Dep. P DR 
便于 用 户 体验 ) 
DUTIES YT 
计 费 方式 “| 收费 /免费 方式 计 费 “| 频道 的 收费 方式 间 的 频道 参数 ,再 利用 频道 参数 
对 应 表 可 知 频道 计 费 方式 
分 析 每 日 用 户 访问 “订阅 成 功 ” 
页 面 的 日 志 , 通 过 频道 参数 对 应 
订阅 用 户 数 | 订阅 菜 频道 的 用 户 总 数 | 用 户 订阅 频道 的 活路 程度 。 | 表 可 知 用 户 新 订阅 的 频道 名 称 ， 
再 将 新 的 订阅 信息 插入 到 用 户 
频道 订阅 表 中 存储 
统计 周期 内 对 用 户 访问 "订阅 成 
产 | 新 增订 阅 用 统计 期 内 新 增 的 订阅 用 P ra | 1 TIAS HEP AE f Ec a 
品 | 户 数 户 数 epica 行 分 析 , 通 过 频道 参数 对 应 表 找 
内 出 用 户 新 订阅 的 频道 名 称 
容 对 用 户 访问 "删除 频道 成 功 ” 页 
x . : 面 产生 的 日 志 进 行 分 析 , 通 过 频 
TRU eR bes AEREAS VA ZES ip asg n i drug si i 
i 道 名 称 ,并 插入 到 用 户 订阅 / 授 
订 频 道 历史 数据 库 
利用 用 户 访问 详细 内 容 页 面 时 
] 日 志 记 录 的 频道 参数 ,通过 频道 
emm 全 | 用 户 对 内 容 的 兴趣 放 参数 对 应 表 得 到 所 要 统计 的 频 
道 数据 ,再 结合 用 户 标识 得 出 主 
动 浏览 用 户 数 
利用 用 户 访问 频道 页 面 时 卓 志 
l 记录 的 频道 参数 ,通过 频道 参数 
anos A EAEE 用户 对 频道 的 兴起 程度 对 应 表 得 到 所 要 统计 的 频道 名 
称 ,再 结合 用 户 标识 得 到 浏览 用 
户 总 数 
- BEHBVOERCERUE SER - 
m 页 面 的 用 户 数 在 所 有 访问 | 频道 内 容 对 用 户 的 吸引 程度 KERANA 
该 频道 用 户 数 的 占 比 
Jan gai PRESSA 利用 日 志 记录 的 访问 频道 参数 ， 
从 议政。 | 六 响 该 频道 详细 内 容 的 | 反映 频道 的 入 性 算出 访问 频道 页 面 的 次 数 , 除 以 
次 数 主动 浏览 用 户 数 


续 表 
名 称 $ X xj 能 计算 方法 


日 志 中 记录 访问 用 户 的 用 户 ID 


用 户 ID “| 唯一 标识 用 户 的 字符 串 | 唯一 标识 用 户 标识 


根据 日 志文 件 中 记录 的 用 户 访 
问 卫 地 址 ,与 各 地 市 IP 地 址 表 
进行 比照 得 到 用 户 使 用 业务 所 
在 地 


城市 名 称 “| 用 户 所 在 城市 


用 
p 用 户 访问 WAP 服务 器 时 ,日 志 
类 会 记录 用 户 的 user-agent( 即 手 
终端 型 号 ”| 用 户 使 用 终端 的 型 号 机 标识 ,简称 UA) ,利用 UA 与 
终端 名 称 的 对 应 表 得 到 准确 的 
终端 型 号 
频道 订购 ANA 反映 当前 用 户 群 订阅 频道 的 | 通过 用 户 订阅 频道 历史 数据 表 
情况 分 布 情况 得 到 
频道 ) 
10.6.3 BE 


下 面 介绍 WAP 日 志 挖掘 的 建 模 过 程 。 

1. 数据 整合 

由 于 数据 仓库 中 地 区 ,终端 ,频道 等 数据 相对 独立 ,所 以 需要 先 将 各 部 分 数据 进行 整合 ， 
最 终 得 出 完整 的 用 户 订阅 频道 信息 表 。 先 利用 用 户 订 阅 信息 表 中 的 user id.city id.region - 
id, mobile type 等 字段 进行 关联 ,把 之 前 可 读 性 较 差 的 数字 表示 方式 蔡 换 为 有 具体 直观 意 
义 的 字符 串 方式 (在 进行 挖掘 过 程 中 就 不 需要 再 到 历史 数据 表 里 查找 相关 参数 ) ,然后 利用 
填充 结 点 将 表 中 的 “null" 值 蔡 换 成 “F”, 这 样 订阅 频道 的 相关 信息 就 以 布尔 值 *F” 和 ”*T” 表 
示 。 最 后 利用 表格 结 点 对 处 理 结果 进行 检查 ,提高 数据 质量 。 

2. RZ 

因为 TwoStep 聚 类 算法 可 以 自己 根据 数据 的 分 布 进行 类 数 的 选择 ,所 以 先 利 用 
TwoStep ,并 将 类 别 数 作为 后 继 k-Means 聚 类 的 输入 参数 ,以 获得 数量 较 平均 ,类 间距 离 较 
大 的 最 佳 聚 类 结果 。 

3. 结果 展示 

网 络 图 可 以 直观 显示 聚 类 结果 ,例如 订阅 娱乐 频道 的 用 户 中 有 很 多 同时 订阅 了 焦点 评 
论 , 在 网 络 图 中 两 个 频道 之 间 会 形成 一 条 很 粗 的 线 , 以 表示 两 者 之 间 呈 较 强 的 相关 性 。 各 点 
之 间 的 线段 即 表示 两 个 频道 的 关系 ,线段 越 粗 相 关 性 越 大 , 越 细 相关 性 越 小 。 网 络 图 提供 了 
动态 的 显示 方式 ,分 析 人 员 可 以 通过 调节 可 拖 动 的 进度 条 进行 条 件 的 改变 ,以 便 将 关联 度 强 
(线条 越 粗 ) 的 各 组 频道 从 繁杂 的 关系 中 提取 出 来 。 

4. 解释 和 评价 

首先 对 聚 类 结果 进行 直观 观察 ,通过 分 布 结 点 了 解 聚 类 的 用 户 群 ,然后 将 聚 类 结果 作为 
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输出 变量 ,地 区 ,终端 类 型 .各 频道 的 订阅 情况 作为 输入 变量 ,利用 决策 树 进 行 聚 类 结果 的 解 
析 , 从 而 以 逻辑 表达 式 解 释 聚 类 结果 。 


10.6.4 结果 


根据 上 述 分 析 过 程 , 结 果 如 表 10. 32 Brom 
R10.32 WAP 日 志 聚 类 结果 


序号 


类 别名 称 


订购 行为 特点 


营销 方案 


证 券 型 


此 类 用 户 对 证 券 、 财 
经 极其 关注 


可 以 定向 推送 证 券 相 关 的 增值 信息 (例如 手机 证 券 报 )， 
也 可 将 与 证 券 相关 的 内 容 进 行 打包 ,作为 提升 WAP 业 
务 订购 的 一 种 手段 。 关 注 证 券 相 关内 容 的 用 户 往 往 是 
非常 活跃 的 用 户 , 各 种 信息 的 获取 需求 很 大 ,是 点 击 次 
数 产 生 的 主要 用 户 群 。 基 于 此 用 户 群 特质 ,可 通过 
WAP 内 内 广告 的 方式 转化 为 收入 ,达到 最 佳 的 盈利 
模式 


娱乐 型 


此 类 用 户 对 星座 、 动 
漫 非常 关注 


通过 此 类 用 户 的 订购 情况 看 ,可 以 判断 此 用 户 群 以 年 轻 
学 生 群 体 为 主 , 接 受 新 鲜 事 物 很 快 ,对 价格 敏感 ,有 较 强 
的 发 表 观 点 的 意愿 ,渴望 自我 实现 。 可 以 增加 评论 等 社 
区 功能 ,为 用 户主 动 推荐 “娱乐 "“ 时 尚 " 等 年 轻 人 可 能 感 
兴趣 的 频道 ,充分 迎合 年 轻 群体 的 需求 


体育 型 、 男 
性 化 


此 类 用 户 对 体育 、 军 
事 很 感 兴趣 


通过 此 类 用 户 的 订阅 情况 看 ,可 以 判断 用 户 群 具 有 男性 
化 的 特质 。 对 于 体育 方面 的 内 容 可 以 进行 领域 细 分 (如 
体育 可 分 为 篮球 、 足 球 等 ) ,提高 用 户 获取 信息 的 准确 性 。 
也 可 引入 WAP 赛事 直播 的 方法 ,让 对 比赛 感 兴趣 但 无 
法 收看 电视 转播 的 人 群 ,通过 文字 的 方式 实时 了 解 赛事 
情况 ,从 而 提高 产品 的 黏 性 。 对 于 军事 方面 的 内 容 , 可 以 
增加 时 事 政治 方面 的 内 容 推荐 ,让 用 户 有 一 个 更 加 全 面 
的 军事 视角 。 根 据 男性 特质 该 用 户 群 还 可 以 提供 “ 创 
业 ”“ 女 性 ”等 相关 内 容 , 以 开辟 吸引 此 类 用 户 的 新 内 容 
领域 


成 熟 型 


此 类 用 户 对 军事 、 焦 
点 评论 和 证 券 很 感 
兴趣 


此 用 户 群 所 感 兴趣 的 内 容 有 较 强 的 深度 ,可 归于 成 熟 型 
用 户 。 对 这 类 用 户 最 重要 的 就 是 所 选 内 容 的 价值 , 若 能 
够 满足 其 对 内 容 深度 的 需求 ,单个 用 户 的 ARPU 值 会 
较 高 


通过 网 络 图 可 以 了 解 WAP 产品 整体 用 户 类 型 情况 ,在 营销 资源 有 限 而 导致 不 能 针对 
分 类 用 户 群 进行 精确 化 营销 的 前 提 下 ,可 先 对 整体 用 户 群 进行 营销 ,大 大 提高 了 运营 分 析 转 
化 为 实际 运营 的 可 行 性 。 
每 个 频道 在 网 络 图 中 均 以 一 个 点 表示 ,而 点 之 间 的 线段 表示 频道 间 的 关联 程度 。 
图 10. 15 将 所 有 的 关系 进行 了 呈现 ,关系 看 起 来 很 复杂 ,可 以 通过 调节 阅 值 进行 过 滤 , 以 发 
现 强 关联 。 
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10.15 初始 的 网 络 图 


设 定 合适 的 阔 值 ,形成 如 图 10. 16 所 示 的 关系 图 。 由 图 10. 16 可 知 , 该 WAP 业务 订阅 
最 多 的 四 个 频道 分 别 是 娱乐 ,轻松 一 刻 、 生 活 和 焦点 评论 ,并 且 各 个 频道 之 间 都 存在 较 强 的 
关联 ,形成 了 WAP 业务 用 户 群 频道 订阅 的 基础 组 合 。 
奥运 名 人 博客 


ind E 


广州 日 报 。 

Dr is 

星座 。 oir 
- 轻松 一 刻 
VE 


?财经 


" 
生活 证 券 


图 10.16 过 滤 后 的 网 络 图 
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第 11 章 ”知识 基础 


第 12 章 ”语义 网 和 本 体 


第 11 章 知识 基础 


知识 是 人 们 日 常生 活 及 社会 活动 中 常用 的 术语 之 一 。 例 如 和 人们 常 说 “知识 就 是 力量 ”， 
“应 该 多 学 点 知识 ”等 等 。 什 么 是 知识 ?知识 有 哪些 特点 ? 它 与 平常 所 说 的 信息 有 什么 区 
别 ? 如 何 表示 知识 ?知识 表示 与 人 工 智能 .知识 工程 的 关系 如 何 ? 针对 上 述 问题 ,本 章 将 从 
知识 的 定义 、 分 类 、 度 量 和 表示 等 几 方面 加 以 阐述 。 


11.1 概述 


1. 数据 

人 类 赖 以 生存 的 空间 是 一 个 物质 的 世界 ,同时 又 是 一 个 信息 的 世界 。 在 这 个 不 断 变化 
的 世界 中 ,无 论 是 政治 、 经 济 .军事 ,还 是 科技 .文化 .教育 等 ,时 时 刻 刻 都 在 产生 大 量 的 信息 。 
谁 能 及 时 地 掌握 有 用 信息 ,并 能 把 有 关 信 息 关 联 起 来 加 以 充分 利用 , 谁 就 能 在 激烈 的 竞争 中 
立 于 不 败 之 地 。 随 着 社会 的 发 展 和 进步 ,信息 在 人 类 生活 中 越 来 越 扮 演 着 极其 重要 的 角色 。 
但 是 ,信息 需要 用 一 定 的 形式 表示 出 来 才能 被 记载 和 传递 ,尤其 是 使 用 计算 机 进行 信息 的 存 
储 和 人 处理 时 ,更 需要 用 一 组 符号 及 其 组 合 进 行 表示 。 像 这 样 用 一 组 符号 及 其 组 合 表示 的 信 
息 称 为 数据 。 

由 此 可 见 , 这 里 所 说 的 数据 已 不 仅仅 是 通常 意义 下 的 “ 数 ”, 而 是 在 概念 上 的 延伸 , 泛 指 
对 客观 事物 的 数量 、 属 性、 位 置 及 其 相互 关系 的 抽象 表示 。 它 既 可 以 是 一 个 数 ,如 整数 、 小 
数 、 正 数 和 负数 ,也 可 以 是 由 一 组 符号 组 成 的 字符 串 , 如 姓名 、 性 别 ` 地 址 或 消息 等 。 

数据 和 信息 是 两 个 密切 相关 的 概念 。 数 据 是 信息 的 载体 和 表示 ,信息 是 数据 在 特定 场 
合 下 的 具体 含义 ,换言之 ,信息 是 数据 的 语义 ,只 有 把 两 者 密切 地 结合 起 来 ,才能 实现 对 现实 
世界 中 某 一 具体 事物 的 描述 。 另 外 ,数据 和 信息 又 是 两 个 不 同 的 概念 。 对 于 同一 个 数据 ,在 
某 一 场合 下 可 能 表示 一 个 信息 ,但 在 另 一 场合 下 却 可 能 表示 另 一 个 信息 。 例 如 数字 “6” 是 一 
个 数据 , 既 可 以 表示 “6 本 书 ”“6 支 铅笔 ”, 也 可 以 表示 “6 个 人 ”或 “6 部 手机 ”等 。 同 样 ,对 同 
一 个 信息 ,在 不 同 场合 下 也 可 用 不 同 的 数据 表示 ,如 同 对 于 同样 的 一 句 话 ,不 同 的 人 会 用 不 
同 的 言语 来 表达 一 样 。 

2. 信息 

20 世纪 40 年 代 末 , 美 国 数学 家 香农 提出 信息 炉 的 数学 公式 ,从 量 的 方面 描述 了 信息 传 
输 和 提取 问题 ,创立 了 信息 论 。 首 先 ,信息 论 在 通信 工程 领域 得 到 广泛 应 用 ,为 信息 科学 的 
人 研究 奠定 了 初步 基础 。 

在 消息 传递 系统 中 所 传输 的 是 消息 ,但 消息 传递 过 程 中 ,最 普遍 却 容易 被 忽视 的 一 点 是 
接收 者 在 收 到 消息 之 前 不 知道 消息 的 具体 内 容 。 对 于 接收 者 而 言 ,消息 的 传递 过 程 是 一 个 
从 不 知 到 知 的 过 程 ,或 者 说 是 一 个 从 不 确定 到 确定 的 过 程 。 

从 通信 过 程 来 看 ,接收 者 的 所 谓 不 知 就 是 不 知道 发 送 端 将 发 送 描述 何 种 运动 状态 的 消 
息 。 例 如 看 天 气 预 报 前 ,并 不 清楚 天 气 将 如 何 ; 看 天 气 预报 后 ,这 种 不 确定 性 大 大 减 小。 不 
确定 性 消除 了 ,接收 者 就 获得 了 信息 。 因 此 香农 认为 ,信息 是 被 消除 的 不 确定 性 。 
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关于 信息 的 定义 ,后 来 的 学 者 又 有 种 种 讨论 。 由 于 信息 概念 的 复杂 性 ,在 定义 信息 时 必 
须 十 分 注意 定义 的 条 件 , 应 当 根 据 不 同 的 条 件 区 分 不 同 的 层次 给 出 信息 的 定义 。 最 高 的 层 
次 是 普遍 的 层次 ,也 是 无 条 件 约束 的 层次 ,我 们 称 之 为 本 体 论 层次 。 在 这 个 层次 上 定义 的 信 
息 是 最 广义 的 信息 ,其 适用 最 广 。 然 后 ,如 果 引 入 一 个 条 件 加 以 约束 , 则 最 高 层次 的 定义 就 
变 为 次 高 层次 的 定义 ,次 高 层次 的 信息 定义 的 适用 范围 比 最 高 层次 的 定义 的 适用 范围 要 窜 ， 
所 引入 的 约束 条 件 越 多 ,定义 的 层次 越 低 , 所 定义 信息 的 适用 范围 就 越 窗 。 这 样 ,根据 引入 
条 件 的 不 同 , 可 以 给 出 不 同 层 次 和 不 同 适 用 范围 的 信息 定义 ,这 些 不 同 的 信息 定义 构成 了 信 
息 定义 的 体系 , 即 : 

。 本 体 论 层次 的 信息 是 事物 运动 的 状态 和 状态 改变 的 方式 。 

* 认识 论 层次 的 信息 是 认识 主体 所 感知 或 所 表述 的 事物 运动 的 状态 和 方式 。 

。 语 法 信息 是 认识 主体 所 感知 或 所 表述 的 事物 运动 状态 和 方式 的 形式 化 关系 。 

。 语 义 信息 是 认识 主体 所 感知 或 所 表述 的 事物 运动 状态 和 方式 的 逻辑 含义 。 

。 语 用 信息 是 认识 主体 所 感知 或 所 表述 的 事物 运动 状态 和 方式 相对 于 某 种 目的 的 


效用 。 

。 先 验 信息 是 指 观 察 者 在 观察 某 事物 之 前 通过 某 种 途径 所 感知 的 该 事物 运动 状态 和 
方式 。 

。 实 得 信息 是 指 在 观察 过 程 中 ,观察 者 通过 观察 所 新 感知 到 的 该 事物 运动 状态 和 
方式 。 

。 实 在 信息 是 指 该 事物 实际 的 运动 状态 和 方式 ,这 也 是 在 理想 观察 条 件 下 观察 者 所 获 
得 的 关于 该 事物 的 全 部 信息 。 


上 述 语法 信息 .语义 信息. 语 用 信息 、 先 验 信息 、 实 得 信息 和 实在 信息 都 是 认识 论 层 次 上 
的 各 种 信息 概念 。 进 一 步 , 如 果 不 仅 对 观察 者 施加 各 种 限制 条 件 ,而 且 对 所 观察 的 事物 也 规 
定 一 些 限制 性 约束 , 则 会 得 到 层次 更 低 、 适 用 范围 更 小 的 信息 定义 。 例 如 ,如 果 限定 所 观察 
事物 的 运动 方式 是 随机 型 的 , 则 可 以 分 别 得 出 概率 性 的 实在 语法 信息 .概率 性 的 先 验 语法 信 
息 、 概 率 性 的 实 得 语法 信息 等 等 ; 如 果 限 定 所 观察 事物 的 运动 方式 是 半 随 机 型 的 , 则 可 以 分 
别 得 到 偶发 性 的 实在 语法 信息 、 偶 发 性 的 先 验 语法 信息 、 偶 发 性 的 实 得 语法 信息 等 等 ; 如 果 
限定 所 观察 事物 的 运动 方式 是 确定 性 的 而 运动 状态 是 模糊 的 , 则 可 以 分 别 得 到 模糊 实在 语 
法 信息 、 模 糊 先 验 语法 信息 、 模 糊 实 得 语法 信息 等 等 。 类 似 的 情形 也 适用 于 语义 和 语 用 信 
息 。 总 之 ,对 观察 者 、 观 察 对象 ( 即 事物 ) 以 及 观察 过 程 的 性 质 都 可 以 规定 各 种 不 同 的 条 件 ， 
因此 可 以 得 到 层次 高 低 不 同 、 适 用 范围 各 异 的 各 种 信息 定义 。 

3. 知识 

从 古 硕 腊 开始 ,人 类 从 未 停止 对 于 知识 的 研究 与 探索 。 哲 学 家 研究 有 关 知 识 的 一 般 特 
性 与 规律 ,而 自然 科学 家 孜孜 不 倦 地 获取 具体 的 知识 。20 世纪 中 后 期 ,这 种 研究 格局 发 生 
了 变化 。 由 于 知识 在 人 类 文明 中 发 挥 的 作用 越 来 越 大 ,不 仅 是 哲学 家 、 逻 辑 学 家 、 教 育 学 家 
和 心理 学 家 ,而 且 计 算 机 科学 家 都 在 认真 地 研究 知识 的 一 般 特性 与 规律 。 这 是 因为 人 类 已 
经 进入 了 信息 化 社会 ,而 且 正 在 向 知识 化 社会 迈进 。 

古 希 腊 哲 学 家 苏 格 拉 底 认 为 知识 的 唯一 功能 是 自我 认识 , 即 人 的 智力 .道德 和 精神 的 
生活 成 长 。 毕 达 格 拉 斯 认为 知识 的 目的 是 通过 使 用 知识 的 人 知道 他 想 说 什么 和 怎么 说 ， 
从 而 使 其 行为 更 有 效 , 知 识 就 是 指 逻辑 .语法 和 修辞 ; 中 国 儒家 则 认为 知识 是 知道 说 什 


么 、 怎么 说 以 及 出 人 头 地 和 俗世 成 功 的 途径 。 对 于 道家 而 言 ,知识 是 自我 认识 和 通 向 领情 
智慧 的 途径 。 

知识 工程 的 创始 人 Feigenbaum 教授 曾经 说 过 :“ 知 识 和 信息 不 一 样 , 知 识 是 信息 经 过 
加 工整 理解 释 、 挑 选 和 改造 形成 的 ”"。 可 以 说 ,这 是 从 广义 信息 论 的 角度 对 知识 进行 定义 ， 
相关 的 定义 还 包括 ( 表 11.1 中 给 出 了 各 种 知识 的 定义 ,以 下 保留 英文 以 便于 对 照 ): 

A Knowledge can be considered as the distillation of information that has been 
collected. classified. organized. integrated. abstracted and value added. Knowledge is at a 
level of abstraction higher than the data. and information on which it is based and can be 
used to deduce new information and new knowledge. When considering knowledge it is 
usually in the context of human expertise used in solving problems. 

A Organized body of information. The acquaintance with facts, truths or principles as 
Írom study or investigation or the familiarity with a partaker subject. branch of 
learning etc. 

综 上 所 述 ,信息 在 人 类 生活 中 占据 着 相当 重要 的 地 位 。 但 是 ,只 有 把 有 关 的 信息 关联 在 
一 起 时 才 具 有 实际 意义 。 一 般 地 ,把 有 关 信 息 关 联 在 一 起 形成 的 信息 结构 称 为 知识 。 一 些 
具有 代表 性 的 知识 定义 如 表 11. 1 所 示 。 

表 11.1 代表 性 的 知识 定义 


序号 知识 定义 
知识 是 通过 实践 .研究 联系 或 调查 获得 的 关于 事物 的 事实 和 状态 的 认识 
知识 是 人 们 在 长 期 的 生活 及 社会 实践 中 、 科 学 研究 及 实验 中 积累 起 来 的 对 客观 世界 的 认识 
与 经 验 , 人 们 把 实践 中 获得 的 信息 关联 在 一 起 ,就 获得 了 知识 
3 知识 是 人 类 在 实践 的 基础 上 产生 又 经 过 实践 检验 的 对 客观 实际 的 可 靠 的 反映 
4 知识 是 对 科学 ,艺术 或 技术 的 理解 ,是 人 类 获得 的 关于 真理 和 原理 的 认识 的 总 和 
5 把 有 关 信息 关联 在 一 起 所 形成 的 信息 结构 称 为 知识 
知识 是 人 脑 创 新 的 成 果 , 是 人 类 智慧 的 结晶 。 智 慧 是 人 类 文明 的 源泉 ,是 推动 历史 发 展 的 永 
恒 动 力 , 是 生产 力 诸 要 素 中 的 核心 


知识 是 人 们 在 长 期 的 生活 及 社会 实践 ,科学 研究 及 实验 中 积累 起 来 的 对 客观 世界 的 认 
识 与 经 验 , 人 们 把 实践 中 获得 的 信息 关联 在 一 起 .就 获得 了 知识 。 信 息 之 间 有 多 种 关联 形 
式 , 其 中 用 得 最 多 的 一 种 是 “如 果 , 则 ?表示 的 关联 形式 ,反映 了 信息 间 的 某 种 因果 关系 。 例 
如 ,我 国 的 北方 人 经 过 多 年 的 观察 发 现 , 每 当 冬季 来 临时 ,就 会 看 到 一 批 批 的 大 雁 向 南方 飞 
去 ,于 是 把 “大 雁 南 飞 " 与 “冬天 将 要 来 临 ? 这 两 个 信息 关联 在 一 起 ,就 得 到 了 ”如果 大 雁 向 南 
飞 , 则 冬天 将 要 来 临 ? 这 样 一 条 知识 。 

知识 反映 了 客观 世界 中 事物 之 间 的 关系 ,不 同事 物 或 者 相同 事物 间 的 不 同 关 系 形成 了 
不 同 的 知识 。 例 如 “ 雪 是 白色 的 ”是 一 条 知识 ,反映 了 “ 雪 ” 与 “颜色 ”之 间 的 一 种 关系 ;“ 如 果 
头痛 且 流 涕 , 则 有 可 能 患 感冒 "是 一 条 知识 ,反映 了 “头痛 且 流 涕 "与 “可 能 患 感冒 "之 间 的 一 
种 因果 关系 。 

4. 信息 和 知识 的 关系 

马克 思 曾 说 过 :“ 任 何 科 学 只 有 在 具有 数学 基础 以 后 ,才能 算得 上 是 真正 的 科学 。( 大 
意 ) 。" 我 们 首先 从 数学 的 角度 区 分 信息 和 知识 这 两 个 概念 。 
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香农 曾经 对 信息 的 数学 本 质 进 行 研究 ,提出 并 回答 了 从 数学 的 观点 看 ,信息 是 什么 的 问 
题 。 他 认为 信息 是 一 个 数学 量 , 用 来 消除 不 确定 性 。 这 种 不 确定 性 可 以 用 具有 概率 意义 的 
ABER. E, ERER TWR EE ACA CE TR, 
如 前 所 述 , 知 识 是 结构 化 的 信息 ,或 者 说 知识 是 用 于 消除 信息 的 无 结构 性 的 。 在 这 一 观 
点 中 ,知识 的 数学 基础 应 该 和 信息 的 不 同 ,其 核心 不 是 概率 论 ,应 该 是 描述 结构 的 某 种 数学 
模型 。 寻 求 并 分 析 这 种 结构 ,有 望 建立 知识 的 数学 描述 。 目 前 ,国际 上 关于 知识 本 体 的 研究 
愈 来 愈 热 ,证实 了 知识 结构 性 是 一 个 根本 问题 的 观点 是 有 道理 的 ,本 体 就 是 知识 结构 性 的 基 
本 描述 ,这 一 点 已 经 成 为 国内 外 有 关 专 家 的 共识 。 
5. 表示 与 知识 表示 
表示 是 使 用 人 造 的 体系 (典型 的 例子 是 数学 ) 对 自然 界 事物 的 运动 规律 进行 概括 和 抽象 
的 模型 ,而 这 一 模型 可 以 预言 自然 界 这 种 运动 的 所 有 情况 。 一 旦 这 样 的 表示 被 找到 ,人 们 就 
认为 这 是 对 这 类 运动 规律 更 深刻 的 认识 。 相 比 于 自然 的 表示 方法 , 它 具 有 抽象 性 、 深 刻 性 和 
简洁 性 。 对 这 种 抽象 意义 上 的 表示 ,自然 界 中 的 物体 是 否 可 被 感知 ,对 表示 没有 什么 直接 的 
关系 。 换 言 之 ,表示 与 自然 现象 之 间 的 形态 上 可 以 没有 任何 相同 之 处 , 它 是 自然 现象 在 人 为 
体系 (公理 ) 下 的 一 种 解释 。 
从 传统 意义 上 说 ,知识 表示 (Knowledge Representation) 是 概括 智能 行为 的 模型 ,属于 
人 工 智 能 的 范畴 ,其 特点 是 : 
。 智能 行为 所 特有 的 灵活 性 问题 (常识 问题 ) 不 能 概括 为 一 类 简洁 的 理论 , 它 是 大 量 小 
理论 的 集合 。 
。 人 工 智 能 受到 计算 装置 的 约束 。 这 就 导致 所 采用 的 表示 必须 同时 满足 “刻画 智能 现 
象 ” 与 “计算 装置 可 接受 "这 两 个 有 时 是 矛盾 的 条 件 。 正 是 对 这 两 个 条 件 的 不 同 侧重 
导致 了 对 表示 的 不 同 认识 ,并 由 此 产生 研究 上 的 不 同方 法 论 。 
可 以 说 ,知识 表示 是 众多 理论 与 技术 的 交叉 学 科 , 主 要 源 于 : 
。 逻辑 提供 推理 规则 和 形式 化 结构 。 
。 本 体 定义 应 用 领域 的 各 种 存在 。 
。 计算 支持 知识 表示 从 哲学 到 应 用 层面 的 实现 。 
如 果 没 有 逻辑 ,知识 表示 不 可 能 明确 ,无 法 判别 陈述 是 否 矛 盾 或 者 元 余 ; 如 果 没 有 本 
Jk ,词汇 、 符 号 等 就 不 能 被 很 好 地 定义 和 使 用 ,概念 就 不 会 具有 很 好 的 一 致 性 ; 如 果 缺 乏 可 
计算 的 模型 ,逻辑 和 本 体 就 不 能 由 计算 机 程序 实现 ,就 不 能 获得 具体 应 用 。 因 此 可 以 说 知识 
表示 是 逻辑 和 本 体 为 了 实现 某 些 领域 特定 应 用 的 任务 而 建立 的 计算 模型 。 
6. 人 工 智 能 与 知识 工程 
人 工 智能 主要 研究 采用 人 工 的 方法 和 技术 模仿 、 延 伸 和 扩展 人 的 智能 ,实现 机 器 智能 。 
有 人 把 人 工 智 能 划分 为 两 大 类 : 一 类 是 符号 智能 . 另 一 类 是 计算 智能 。 符 号 智能 是 以 知识 
为 基础 ,通过 推理 进行 问题 求解 , 即 所 谓 传统 的 人 工 智能 ; 计算 智能 是 以 数据 为 基础 ,通过 
训练 建立 联系 进行 问题 求解 ,如 人 工 神经 网 络 .遗传 算法 .模糊 系 统 和 人 工 生命 等 都 可 以 包 
括 在 计算 智能 的 范畴 。 
传统 的 人 工 智能 主要 运用 知识 进行 问题 求解 。 从 实用 观点 看 ,人 工 智 能 是 一 门 知识 工 
程 学 , 即 以 知识 为 对 象 ,研究 知识 表示 方法 、 知 识 运 用 和 知识 获取 。 
自 1956 年 人 工 智 能 提出 以 来 ,已 经 取得 了 很 大 的 进展 和 成 功 。1976 年 Newell 和 


Simon 提出 了 物理 符号 系统 假设 ,认为 物理 符号 系统 是 表现 智能 行为 的 必要 和 充分 条 件 。 
这 样 ,可 以 把 任何 信息 加 工 系统 看 作 一 个 具体 的 物理 系统 ,如 人 的 神经 系统 、 计 算 机 的 构造 
系统 等 。20 世纪 80 年 代 Newell 等 人 又 致力 于 SOAR 系统 的 研究 ,该 系统 是 以 知识 块 
(Chunking) 理 论 为 基础 ,利用 基于 规则 的 记忆 ,获取 搜索 控制 知识 和 操作 符 , 实 现 通 用 问题 
求解 。Minsky 从 心理 学 的 角度 出 发 ,认为 人 们 在 日 常 的 认识 活动 中 ,使 用 了 大 批 从 以 前 的 
经 验 中 获取 并 经 过 整理 的 知识 ,该 知识 是 以 一 种 类 似 框 架 的 结构 存在 于 人 脑 中 。 因 此 ， 
20 世纪 70 年 代 他 提出 了 框架 知识 表示 方法 。 到 了 20 世纪 80 年 代 ,Minsky 认为 人 的 智能 
根本 不 存在 统一 的 理论 。1985 年 ,他 在 自己 发 表 的 著作 中 指出 思维 社会 是 由 大 量具 有 某 种 
思维 能 力 的 单元 组 成 的 复杂 社会 。 以 McCarthy 和 Nilsson 等 为 代表 ,主张 用 逻辑 来 研究 人 
工 智能 , 即 用 形式 化 的 方法 描述 客观 世界 。 逻 辑 学 派 在 人 工 智能 研究 中 ,强调 的 是 概念 化 知 
识 表示 ,模型 论语 义 和 演 绎 推理 等 。McCarthy 主张 任何 事物 都 可 以 用 统一 的 逻辑 框架 表 
示 ,在 常识 推理 中 以 非 单调 逻辑 为 中 心 。 传 统 的 人 工 智 能 研究 思路 是 “ 自 上 而 下 ”, 其 目标 是 
让 机 器 模仿 人 ,认为 人 脑 的 思维 活动 可 以 通过 一 些 公式 和 规则 定义 ,因此 希望 通过 把 人 类 的 
思维 方式 翻译 成 程序 语言 输入 机 器 ,使 机 器 有 朝 一 日 产生 像 人 类 一 样 的 思维 能 力 。 这 一 理 
论 主导 了 早期 的 人 工 智能 研究 。 

1977 年 ,第 五 届 国 际 人 工 智 能 联合 会 议 上 ,美国 斯 坦 福 大 学 计算 机 系 Feigenbaum 教授 
做 了 关于 人 工 智能 的 艺术 ”(The Art of Artificial Intelligence) 的 讲演 ,提出 知识 工程 这 一 
名 词 , 指 出 “知识 工程 是 应 用 人 工 智能 的 原理 与 方法 ,对 那些 需要 专家 知识 才能 解决 的 应 用 
难题 提供 求解 的 手段 ,恰当 地 运用 专家 知识 的 获取 、 表 达 和 推理 过 程 的 构成 与 解释 ,是 设计 
基于 知识 的 系统 的 重要 技术 问题 ”。 

从 时 间 上 划分 ,知识 工程 的 发 展 大 体 经 历 了 三 个 时 期 : 

(1) 1965 一 1974 年 为 实验 性 系统 时 期 。1965 年 Feigenbaum 教授 与 其 他 科学 家 合作 ， 
研制 出 DENDRAL 专家 系统 。 这 是 一 种 推断 分 子 结构 的 计算 机 程序 ,该 系统 存储 了 非常 丰 
富 的 化 学 知识 ,其 解决 问题 的 能 力 达 到 专家 水 平 , 甚 至 在 某 些 方面 超过 同行 专家 的 能 力 ,其 
中 包括 它 的 设计 者 。DENDRAL 标志 着 专家 系统 的 诞生 。 

(2) 1975—1980 年 为 MYCIN 时 期 。20 世纪 70 年 代 中 期 MYCIN 专家 系统 研制 成 功 ， 
它 是 一 种 用 医学 诊断 治疗 感染 性 疾病 的 计算 机 程序 “专家 系统 ”。MYCIN 是 规范 性 计算 机 
专家 系统 的 代表 ,许多 其 他 专家 系统 都 是 在 MYCIN 的 基础 上 研制 而 成 的 。MYCIN 不 但 
有 具有 和 较 高 的 性 能 ,而 且 具 有 解释 和 知识 获取 功能 ,可 以 用 英语 与 用 户 对 话 , 回 答 用 户 提出 的 
问题 ,还 可 以 在 专家 指导 下 学 习 医 疗 知识 ,该 系统 还 使 用 了 知识 库 的 概念 和 不 精确 推理 技 
术 。MYCIN 对 计算 机 专家 系统 的 理论 和 实践 都 具有 较 大 的 贡献 。 

(3) 1980 年 以 来 为 知识 工程 的 产品 在 产业 部 门 开始 应 用 的 时 期 。 人 工 智能 的 研究 表 
明 ,专家 之 所 以 成 为 专家 ,主要 在 于 他 们 拥有 大 量 的 专门 知识 ,特别 是 长 期 从 实践 中 总 结 和 
积累 的 经 验 技能 知识 。 从 知识 工程 的 发 展 历史 可 以 看 出 ,知识 工程 是 伴随 着 “专家 系统 ”的 
研究 而 产生 的 。 实 际 上 ,知识 工程 的 焦点 就 是 知识 。 知 识 工程 领域 的 主要 研究 方向 包含 知 
识 获 取 、 知 识 表 示 和 推理 方法 等 ,其 研究 目标 是 挖掘 和 抽取 人 类 知识 ,用 一 定 的 形式 表示 知 
识 ,使 之 成 为 计算 机 可 操作 的 对 象 ,从 而 使 计算 机 具有 一 定 的 人 类 智能 。 
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11.2 知识 分 类 


随 着 人 类 对 于 知识 内 涵 认 识 的 深入 ,从 不 同 角度 对 知识 进行 了 分 类 。 就 某 种 意义 而 言 ， 
知识 分 类 恰恰 是 建立 在 对 知识 内 涵 的 理解 之 上 的 ,分 类 原则 本 身 也 在 一 定 程 度 上 体现 出 人 
类 在 不 同 社会 经 济 形态 下 对 知识 作用 的 不 同 认识 。 

德国 哲学 家 马克 斯 . 舍 勒 将 知识 划分 为 应 用 知识 、 学 术 知 识 和 精神 知识 三 大 类 。 在 此 
基础 上 ,著名 美 籍 经 济 学 家 弗 里 效 。 马 克 卢 普 在 20 世纪 中 叶 提 出 了 知识 产业 理论 ,按照 认 
识 者 的 主观 解释 分 析 知 识 的 种 类 ,认为 知识 包括 五 个 方面 的 内 容 , 即 实用 知识 、 学 术 知 识 、 闲 
谈 和 消 遗 知识 、 精 神 知识 和 不 需要 的 知识 (多 余 的 知识 )。 另 外 ,马克 卢 普 还 从 科学 的 与 历史 
的 ,一般 抽象 的 与 特殊 具体 的 ,分析 的 与 经 验 的 、 永 恒 的 与 暂时 的 角度 ,对 知识 类 别 进行 了 概 
要 分 析 。 随 后 ,马克 卢 普 又 从 世俗 知识 、 科 学 知识 、 人 文 知识 ,社会 科学 知识 、 艺 术 知 识 .没有 
文字 的 知识 (如 视听 艺术 ) 等 角度 对 知识 进行 解释 ,提出 知识 具有 真实 、 美 丽 和 优秀 等 性 质 。 

随 着 知识 经 济 理 论 的 逐渐 发 展 ,经 合 组 织 (Organization of Economic Cooperation and 
Development,OECD) 对 知识 的 分 类 成 为 目前 最 具 权 威 和 流行 的 一 种 。 根 据 该 组 织 的 划分 
标准 ,将 知识 归纳 为 四 种 类 型 , 即 事实 知识 (Know-what) ,原理 知识 (Know-why) ,技能 知识 
(Know-how) 和 人 力 知识 (Know-who)。 以 上 是 从 知识 使 用 的 角度 划分 的 ,因而 更 注重 知识 
的 实践 性 和 价值 性 。 为 了 更 深刻 地 理解 知识 的 含义 并 对 其 进行 有 效 的 管理 ,在 OECD 分 类 
的 基础 上 ,进一步 将 知识 划分 为 显 性 知识 和 隐 性 知识 两 大 类 。 

所 谓 显 性 知识 ,是 指 可 以 通过 正常 的 语言 方式 传播 的 知识 ,典型 的 显 性 知识 主要 是 指 以 
专利 .科学 发 明和 特殊 技术 等 形式 存在 的 知识 ,存储 在 书本 、 计 算 机 数据 库 .CD ROM 中 。 
显 性 知识 是 可 以 表达 的 有 物质 载体 的 和 可 确 知 的 。 在 OECD 所 划分 的 四 类 知识 中 ,关于 
Know-what 和 Know-why 的 知识 基本 属于 显 性 知识 ; 所 谓 隐 性 知识 或 称 为 隐 含 经 验 类 知 
识 (Tacit Knowledge) ,往往 是 个 人 或 组 织 经 过 长 期 积累 而 拥有 的 知识 ,通常 不 易 用 语言 表 
达 , 也 不 可 能 传播 给 别人 或 传播 起 来 非常 困难 。 例 如 技术 高 超 的 厨师 或 艺术 家 可 能 达到 世 
界 水 平 , 却 很 难 将 自己 的 技术 或 技巧 表达 出 来 从 而 将 其 传播 给 别人 或 共享 。 隐 性 知识 对 应 
的 是 OECD 分 类 中 Know-how 和 Know-who 的 知识 ,其 特点 是 不 易 被 认识 到 、 不 易 衡 量 其 
价值 .不 易 被 其 他 人 所 理解 和 掌握 。 

显 性 知识 和 隐 性 知识 的 划分 突破 了 过 去 人 们 对 于 知识 的 认识 ,将 还 未 经 系统 化 处 理 的 
经 验 类 知识 予以 承认 。 如 果 把 显 性 知识 比喻 为 “冰山 的 尖端 ”, 则 隐 性 知识 就 是 隐藏 在 水 面 
下 的 大 部 分 ,虽然 它们 比 显 性 知识 难 发 觉 , 却 是 社会 财富 的 最 主要 源泉 。 知 识 管理 中 的 一 个 
重要 观点 就 是 隐 性 知识 比 显 性 知识 更 完善 .更 能 创造 价值 , 隐 性 知识 的 挖掘 和 利用 能 力 ,将 
成 为 个 人 和 组 织 成 功 的 关键 。 


11.3 知识 表示 


知识 表示 的 最 基本 作用 是 能 够 清晰 明确 地 表示 面向 计算 机 的 知识 。 此 外 ,知识 表示 还 
具有 以 下 作用 。 


1. 突显 问题 本 质 

计算 机 在 表示 事物 时 ,为 保持 知识 表示 的 紧凑 性 和 一 致 性 ,要 求 能 抓 住 事物 的 本 质 和 相 
互 之 间 的 重要 区 别 ,避免 表示 不 必要 或 不 可 能 知道 的 细节 。 所 以 合理 的 知识 表示 形式 能 突 
显 问题 的 本 质 。 

2. 支持 知识 获取 

人 工 智 能 只 有 不 断 进 化 ,才能 突显 其 旺盛 的 生命 力 。 所 以 知识 表示 必须 能 支持 其 渐 增 
地 从 外 界 获 取 知 识 , 使 计算 机 内 部 模型 越 来 越 精确 地 反映 外 部 世界 ,更 好 地 完成 问题 求解 
任务 。 

3. 支持 对 知识 库 的 高 效 搜索 

如 果 计 算 机 不 但 能 够 感觉 到 周围 环境 存在 的 问题 ,还 能 准确 知道 利用 自己 拥有 的 知识 
解决 问题 ,这 对 其 智能 行为 的 产生 将 具有 重要 作用 。 所 以 知识 表示 应 能 支持 对 知识 库 的 高 
效 搜索 ,以 便 发 现 被 感知 的 事物 之 间 的 关系 和 变化 ,找到 对 问题 状态 的 最 佳 描述 ,消除 重复 、 
宛 余 的 内 容 , 处 理 感知 信息 中 的 错误 。 

知识 表示 研究 的 主要 内 容 包括 : 

。 知识 表示 观 的 研究 

。 知识 表示 方法 的 研究 

针对 知识 表示 观 和 知识 表示 方法 ,下 面 将 分 别 介绍 。 


11.3.1 知识 表示 观 


在 讨论 具体 的 知识 表示 方法 之 前 , 搞 清楚 ”什么 是 表示 ”这 一 基本 问题 是 十 分 必要 的 。 
根据 对 这 个 基本 问题 的 不 同 理解 和 所 采用 的 方法 论 , 人 工 智 能 学 界 形成 了 不 同 的 学 派 , 对 表 
示 而 言 , 可 以 称 之 为 表示 观 。 

1. 认识 论 表 示 观 

认识 论 表示 观 认为 对 智能 行为 的 刻画 是 与 常识 知识 形式 化 紧密 相关 ,因此 对 常识 形式 
化 的 研究 是 人 工 智能 的 核心 任务 。 常 识 推理 在 某 种 程度 上 就 是 问题 求解 中 的 灵活 性 ,而 灵 
活性 的 共同 特点 是 不 完全 性 \ 不 一 致 性 \ 不 确定 性 和 进化 性 ,这 些 最 终 将 与 常识 推理 的 可 废 
弃 性 相 联 系 。 常 识 可 以 被 说 明 在 自然 世界 中 的 那些 “什么 均 可 以 发 生 , 什 么 也 可 以 不 发 生 ” 
的 现象 。 非 单调 推理 是 认识 论 学 派 研 究 的 主流 ,而 对 “灵活 性 ”的 不 同 考虑 与 侧重 产生 了 对 
常识 研究 的 不 同 理论 。 

基于 认识 论 表示 观 的 主要 特点 是 : 

COD 知识 论 表 示 观 是 在 特定 环境 下 对 世界 观察 的 结果 ,其 意义 在 于 说 明 表 示 是 自然 现 
象 的 一 种 替代 形式 。 对 人 工 智 能 研究 而 言 , 认 识 论 表 示 观 更 加 强调 自然 现象 与 表示 之 间 的 
因果 关系 , 即 如 果 一 种 表示 不 能 刻画 某 种 智能 行为 ', 则 失去 了 在 AI 范畴 内 研究 的 意义 ,而 
不 管 其 形式 是 如 何 优美 。 这 与 物理 学 家 的 思考 方法 十 分 类 似 , 但 与 数学 家 的 完全 不 同 。 

(2) 认识 论 表示 观 认为 启发 式 方法 不 属于 表示 的 研究 内 容 , 其 理由 是 对 自然 现象 的 表 
示 是 对 这 种 现象 的 机 制 更 深刻 的 刻画 ,至 于 怎样 有 效 地 得 到 行为 描述 与 最 后 的 合法 结论 不 
是 认识 世界 的 问题 ,而 仅仅 是 怎样 做 得 更 好 的 问题 。 由 于 表示 是 对 自然 世界 的 刻画 ,因此 从 
事实 出 发 而 推出 结论 的 过 程 是 合法 的 。 另 外 ,这 种 表示 观 对 在 计算 机 中 有 效 地 存储 的 考虑 
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并 不 是 针对 某 些 特定 的 已 有 表示 方法 ,而 是 指 由 于 常识 知识 的 特点 在 于 其 存在 着 例外 ,因此 
需要 有 理论 的 概括 才 可 有 效 地 在 计算 机 中 存储 它们 。 

综 上 所 述 , 认 识 论 表示 观 认为 对 常识 知识 的 形式 化 是 重要 的 任务 ,其 含意 不 是 指 在 AI 
中 经 常 使 用 的 穷 举 式 的 方法 ,而 是 寻找 一 种 简洁 地 表示 智能 行为 的 理论 。 因 此 ,这 一 表示 观 
的 要 点 就 可 根据 P. Hayes 的 解释 说 明 为 “表示 的 唯一 作用 就 是 携带 知识 ”, 这 意味 着 表示 可 
以 独立 于 知识 , 当 这 个 携带 者 中 的 变 元 被 自然 世界 中 的 事实 所 代替 时 ,知识 将 表现 在 其 行为 
之 中 。 

2. 本 体 论 表示 观 

本 体 论 表 示 观 认为 表示 是 对 自然 世界 的 描述 ,绝对 的 允 真 是 不 可 能 的 ,自然 世界 唯一 绝 
对 精确 的 表示 是 其 自身 ,其 他 表示 都 不 是 绝对 逼真 ,任何 表示 不 可 避免 地 包含 着 简化 或 人 为 
的 规定 。 基 于 这 样 的 考虑 ,产生 了 一 系列 的 问题 ,这 些 问题 的 解决 应 当 基 于 本 体 论 表示 
观 , 即 : 

(1) 由 于 任何 一 种 表示 都 是 对 自然 世界 事物 的 近似 。 因 此 ,表示 必然 需要 对 世界 的 某 
个 部 分 给 予 特别 的 注意 (聚焦 ), 而 忽略 世界 的 另外 部 分 (衰减 ), 而 聚焦 什么 和 衰减 什么 的 
“聚焦 -衰减 ”效果 (心理 学 称 这 种 现象 为 注意 力 集中 ) 就 是 看 待 外 部 世界 的 规定 ,这 形成 了 本 
体 论 约定 的 集合 。 本 体 论 约定 必然 性 的 理由 是 表示 模型 的 不 完善 ,而 其 有 效 性 的 理由 则 是 
因为 注意 力 集中 于 世界 的 一 小 部 分 而 达到 对 问题 的 有 效 求解 。 

(2) 本 体 论 表示 观 强调 对 自然 世界 可 以 采用 不 同 的 方法 记述 ,但 注重 的 不 是 语言 形式 ， 
而 是 内 容 , 这 与 认识 论 表 示 观 “表示 的 唯一 功能 是 携带 知识 ”的 观点 针锋相对 。 但 本 体 论 表 
示 观 又 与 知识 工程 表示 观 不 同 , 它 所 注重 的 “内 容 ? 不 是 某 些 特定 领域 的 特殊 的 专家 知识 ,而 
是 自然 世界 中 的 那些 具有 普遍 意义 的 一 般 知识 (General Knowledge)。 寻 找 并 建立 这 样 一 
个 具有 常识 知识 并 可 为 大 多 数 领域 使 用 的 一 般 性 知识 库 , 就 是 本 体 论 表 示 观 中 关于 “内 容 ” 
的 含义 。 

(3) 本 体 论 表示 观 认为 ,表示 只 是 表述 智能 行为 的 部 分 理论 ,其 暗示 不 考虑 推理 的 纯粹 
表示 是 不 存在 的 。 这 个 观点 与 认识 论 表 示 观 没有 什么 本 质 区 别 , 区 别 在 于 表示 的 研究 是 否 
认为 保 真 推理 是 其 唯一 需要 遵循 的 原则 。 本 体 论 表示 观 认 为 表示 研究 应 与 “启发 式 搜索 ” 联 
系 起 来 考虑 。 启 发 式 搜 索 是 表示 理论 的 重要 组 成 部 分 ,其 理由 是 既然 表示 是 对 自然 世界 不 
完善 的 描述 , 则 保 真 推理 就 会 将 这 种 不 完善 带 入 其 推出 的 结果 中 。 从 数学 角度 而 言 ,这 个 推 
理 是 正确 的 ,但 它 可 能 与 自然 世界 的 现象 不 符 。 另 一 个 理由 则 可 能 更 重要 ,本 体 论 表示 观 认 
为 合法 推理 可 以 给 出 问题 的 全 部 解答 ,但 推荐 推理 则 将 给 出 合理 的 解答 。 这 里 , “合理 ”这 一 
关键 词 有 两 种 含义 : 其 一 是 指 相对 小 的 解 集 台 ,其 二 是 指 在 推理 过 程 中 大 大 减少 的 搜索 
空间 。 

(4) 本 体 论 表 示 观 认为 计算 效率 无 疑 是 表示 的 核心 问题 之 一 ,这 是 这 种 表示 观 考虑 “ 启 
发 式 搜索 是 表示 研究 不 可 分 割 一 部 分 ?的 必然 结论 。 本 体 论 表 示 观 强调 启发 式 方法 对 表示 
的 作用 ,这 意味 着 有 效 的 知识 组 织 及 领域 有 关 的 启发 式 知识 是 其 提高 计算 效率 的 手段 ,但 这 
个 结论 可 能 有 失 全 面 。 

(5) 本 体 论 表示 观 认为 使 用 哪 种 语言 作为 表示 形式 并 不 是 最 重要 的 , 它 强 调 为 了 刻画 
自然 世界 的 丰富 性 集成 多 种 表示 方法 是 必然 的 。 另 外 ,这 种 表示 观 特别 指出 表示 不 是 数据 
结构 ,这 是 它 与 知识 工程 表示 观 的 重要 区 别 之 一 。 


3. 知识 工程 表示 观 

知识 工程 表示 观 区 别 于 前 面 两 种 表示 观 , 主 要 体现 在 两 个 方面 : 其 一 是 知识 工程 表示 
观 将 表示 理解 为 一 类 数据 结构 及 在 其 上 的 操作 ; 其 二 是 对 知识 的 内 容 更 强调 与 领域 相关 、 
那些 只 适合 于 这 个 领域 的 ,来 自 领 域 专家 经 验 的 知识 。 由 此 说 明 这 种 表示 观 更 强调 其 工程 
实现 性 ,而 不 其 关心 对 其 行为 的 科学 解释 。 

综 上 所 述 ,认识 论 表 示 观 假设 ,表示 是 对 自然 世界 的 描述 ,表示 自身 不 显示 任何 智能 行 
为 ,其 唯一 的 作用 是 携带 知识 ,表示 研究 与 启发 式 研究 无 关 。 本 体 论 表示 观 假设 ,表示 是 对 
自然 世界 的 一 种 近似 , 它 规定 了 看 待 自然 世界 的 方式 , 即 一 个 约定 的 集合 ,表示 只 是 描述 了 
在 这 个 世界 中 ,观察 者 当前 所 关心 的 那 部 分 ,其 他 部 分 则 被 忽略 。 知 识 工程 表示 观 认 为 , 表 
示 是 对 自然 世界 描述 的 计算 机 模型 ,应 该 满足 计算 机 这 一 实体 的 具体 限制 。 因 此 ,表示 可 以 
理解 为 一 类 数据 结构 及 在 其 上 的 一 组 操作 。 

不 同 的 表示 观 对 智能 模拟 研究 的 侧重 不 同 。 例 如 知识 工程 表示 观 强调 自然 世界 在 计算 
机 内 部 某 类 数据 结构 的 映 象形 式 及 对 存储 内 容 所 采用 的 处 理 方法 。 因 此 ,研究 知识 的 存储 
结构 及 其 有 效 地 使 用 (推理 和 搜索 ) 成 为 这 种 表示 观 研究 的 主要 任务 ,这 种 表示 观 侧重 于 * 计 
算 机 可 接受 ?这 个 条 件 。 对 认识 论 的 表示 观 而 言 ,表示 是 一 种 携带 知识 的 理论 ,问题 求解 的 
有 效 性 不 在 其 考虑 之 列 ,强调 对 自然 现象 (如 常识 知识 ) 抽 象 .简洁 的 刻画 。 本 体 论 的 表示 观 
则 认为 任何 表示 均 是 不 完全 的 知识 理论 ,而 对 其 使 用 的 有 效 性 (计算 困难 程度 ) 则 是 先决 条 
件 。 因 此 ,本 体 论 的 表示 观 强 调 一 种 聚焦 的 功能 ,“ 启 发 式 ” 成 为 研究 的 一 部 分 。 

这 些 表示 观 是 从 不 同 角度 及 不 同 描述 层次 解释 表示 的 内 涵 而 产生 的 不 同 的 结论 。 但 
是 ,本 体 论 表示 观 不 能 因为 其 强调 表示 的 不 完善 及 可 计算 而 否定 其 知识 携带 作用 , 它 与 认识 
论 表示 观 的 区 别 仅 仅 在 于 这 种 作用 是 否 是 唯一 的 。 另 外 ,由 于 本 体 论 表示 观 承 认 表 示 与 “ 启 
发 式 ” 研 究 之 间 的 关系 ,因此 与 知识 工程 表示 观 紧密 相关 。 

一 般 地 ,认识 论 表示 观 强调 知识 的 某 种 存在 性 研究 ,本 体 论 表示 观 则 更 多 考虑 知识 
的 构造 性 研究 ,而 知识 工程 表示 观 则 以 知识 系统 的 可 实现 性 作为 重点 。 显 然 , 对 任何 一 
门 学 科 ,存在 性 ,构造 性 及 可 实现 性 都 很 重要 ,简单 地 和 否定 某 种 表示 观 是 不 合适 甚至 是 错 
误 的 。 


11.3.2 知识 表示 方法 


AT 中 经 常 使 用 的 知识 表示 方法 几乎 都 是 源 于 研究 者 对 智能 行为 在 微观 与 宏观 不 同 层 
次 的 观察 和 分 析 而 抽象 出 来 的 模型 。 根 据 表示 方法 的 原理 可 以 分 为 三 类 ,如 图 11.1 所 示 。 

CD 局 部 表示 包括 逻辑 、 产 生 式 系统 ,语义 网 络 、 框 架 、 脚 本 和 过 程 等 。 

(2) 分 布 表示 包括 基因 、 联 接 机 制 。 

(3) 直接 表示 包括 各 种 图 形 、 图 像 声 音 及 人 造 环境 等 。 

图 11.1 中 ,局 部 表示 是 AI 研究 最 充分 也 是 正统 AI 最 经 常 使 用 的 表示 方法 ,包括 他 
辑 、 产 生 式 系统 ,语义 网 络 ,框架 、 丢 本、 过 程 等 。 一 般 地 ,局 部 表示 又 分 为 陈述 表示 和 过 程 表 
示 两 种 。 陈 述 表 示 是 对 事物 状态 、 属 性 和 相互 关系 的 描述 ; 过 程 表示 则 是 对 事物 的 行为 和 
操作 ,问题 的 求解 方法 和 步骤 的 具体 描述 。 分 布 表示 方法 是 对 局 部 表示 在 智能 行为 描述 上 
不 够 充分 而 进行 的 补充 ,包括 基因 .联接 机 制 。 直 接 表 示 采 用 与 自然 世界 一 致 的 表示 方法 ， 
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替代 表示 分 布 表 示 


| 
直接 表示 局 部 表示 


| 
陈述 性 表示 过 程 性 表示 


BHRT 产生 式 表 示 。 语义 网 络 表示 


脚本 表示 
11.1 知识 表示 方法 分 类 


早 在 20 世纪 60 年 代 初 已 被 提出 ,并 引起 越 来 越 多 AI 研究 者 的 关注 。 目 前 ,这 类 表示 方法 
称 为 直接 表示 或 拟 真 表示 (Direct or Analogical) ,如 地 图 、 图 形 、 图 像 、 音 乐 及 人 造 环境 等 。 
基于 这 类 表示 的 系统 是 以 对 实体 的 拟 真 描 述 直接 或 间接 参与 推理 为 特点 。 如 果 考虑 以 计算 
机 作为 载体 对 知识 编码 , 则 直接 表示 不 是 一 种 可 以 完全 独立 于 局 部 与 分 布 表 示 的 方法 ,主要 
原因 是 考虑 到 任何 表示 方法 必须 可 以 被 计算 机 接受 这 一 先决 条 件 ,因此 直接 表示 的 方法 需 
要 借助 局 部 或 分 布 表示 的 形式 。 对 计算 机 而 言 , 相 对 于 局 部 和 分 布 表示 ,直接 表示 可 以 视 为 
外 部 表示 ,与 其 他 内 部 表示 相 比 较 , 它 强调 表示 与 被 表示 实体 之 间 具 有 结构 相似 性 。 由 于 这 
种 表示 方法 所 存在 的 固有 缺点 与 技术 条 件 的 限制 ,在 较 长 的 时 间 内 没有 得 到 长 足 的 发 展 。 
主要 原因 在 于 : 
。 计算 机 对 直接 表示 的 信息 难以 处 理 。 直 接 表示 的 信息 (如 图 形 ) 具 有 很 强 的 领域 相 
关 性 ,这 暗示 这 种 表示 方法 包含 太 多 宛 余 信 息 , 因 此 注意 力 集中 成 为 必须 考虑 的 问 
题 。 另 外 ,大 多 数 直接 表示 的 信息 的 语义 取决 于 其 使 用 背景 ,而 不 是 独立 的 。 这 样 
难以 发 展 成 为 一 种 一 般 性 的 描述 语言 。 
。 直接 表示 难以 表示 定量 信息 ,换言之 直接 表示 描述 自然 世界 的 信息 范围 相对 受 限 ， 
这 使 很 多 研究 者 试图 设计 基于 直接 表示 的 语言 均 以 失败 而 告终 。 
下 面 简要 介绍 几 种 局 部 表示 方法 。 
1. 产生 式 系统 
自然 界 的 各 种 知识 单元 之 间 存 在 着 大 量 的 因果 关系 ,这 些 因 果 关 系 或 者 前 提 与 结论 的 
关系 ,采用 产生 式 ( 或 称 规则 ) 表 示 非 常 方 便 。 实 际 上 ,谓词 公式 的 蕴涵 关系 就 是 产生 式 的 特 
例 , 如 "天 下 雨 ,地 上 湿 了 ?”。 
一 个 产生 式 系统 通常 由 三 部 分 组 成 , 即 : 
(1) 一 组 规则 , 亦 即 产生 式 本 身 。 每 个 规则 分 为 左 部 (LHS) 和 右 部 (RHS)。 一 般 而 言 ， 
左 部 表示 情况 , 即 什 么 条 件 发 生 时 此 产生 式 被 调用 :; 右 部 表示 动作 , 即 此 产生 式 被 调用 后 所 
做 的 动作 。 在 核实 左 部 情况 时 ,通常 采用 匹配 的 方法 , 即 查看 当前 数据 基 中 是 否 存在 规则 左 
部 所 示 的 情况 。 如 果 存 在 则 匹配 成 功 ,否则 匹配 不 成 功 。 匹 配 成 功 时 执行 右 部 规定 的 动作 ， 


动作 一 般 是 指 对 数据 基 中 的 数据 进行 某 种 处 理 , 例 如 添加 (增加 新 数据 ) 、 和 置换 (替换 旧 数 据 ) 
和 删除 (删除 旧 数 据 ) 等 。 

产生 式 是 专家 系统 中 使 用 最 广泛 的 一 种 知识 表示 法 ,能 够 模拟 人 类 求解 问题 的 思维 方 
式 , 便 于 表达 专家 领域 的 启发 式 知识 或 经 验 知识 。 

产生 式 规则 (Production Rule) 通 常用 于 描述 事物 之 间 的 一 种 因果 关系 ,其 基本 形式 是 ， 

IF <P> THEN <Q> 

其 中 ,P 是 产生 式 的 前 提 , 用 于 判断 该 产生 式 是 否 可 用 的 条 件 ,也 称 为 前 件 ; Q 是 产生 
式 的 结论 或 操作 ,用 于 当前 提 P 满足 时 ,应 该 得 出 的 结论 或 执行 的 操作 ,也 称 为 后 件 。 例 
如 ,规则 IF 某 动 物 吃 肉 THEN 它 是 食肉 动物 (表示 一 种 结论 ) ,IF 炉 温 超 过 上 限 THEN 立 
即 关 闭 风 门 ,通知 管理 员 ( 表 示 一 种 操作 ) 。 

(2) 数据 基 (Data Base) 。 每 个 产生 式 系统 都 有 一 个 数据 基 , 其 中 存放 的 数据 既是 构 
成 产生 式 的 基本 元 素 , 又 是 产生 式 作用 的 对 象 。 数 据 基 常 译 作 数 据 库 。 但 这 里 所 指 的 数 
据 基 和 数据 库 管 理 系 统 中 的 数据 库 是 两 个 不 同 的 概念 。 这 里 ,数据 是 广义 的 ,可 以 是 常 
量 、 变 量 、 多 元 组 \ 谓 词 、 表 结构 和 图 像 等 ,往往 指 一 个 事实 或 断言 ,可 以 把 它 看 成 一 个 知 
识 元 。 

(3) 解释 程序 。 负 责 整 个 产生 式 系 统 的 运行 ,包括 规则 左 部 和 数据 基 的 匹配 ,从 匹配 成 
功 的 规则 (可 能 不 止 一 个 ) 中 选 出 一 个 执行 ,解释 执行 规则 右 部 的 动作 ,并 择机 结束 产生 式 系 
统 的 运行 等 。 

2. 语义 网 络 

语义 网 络 (Semantic Network) H J. R. Quillian 在 1968 年 在 研究 人 类 联想 记忆 时 提 
出 的 一 种 心理 学 模型 ,他 曾 提 出 记忆 是 由 概念 间 的 联系 实现 的 概念 ,把 语义 网 络 作为 人 类 联 
想 记 忆 的 一 个 显 式 心 理学 模型 。 随 后 ,J. R. Quillian 又 把 它 用 作 一 种 知识 表示 方法 ; 1972 年 ， 
西蒙 在 其 自然 语言 理解 系统 中 也 采用 了 语义 网 络 表示 法 ; 1975 年 G. G. Hendrix 对 全 称 量 
词 的 表示 提出 了 语义 网 络 分 区 技术 。 

请 义 网 络 是 对 对 象 及 其 属性 分 类 知识 编码 的 图 形 结构 。 请 义 网 络 是 一 种 由 结 点 及 结 点 
间 带 标记 的 连接 弧 组 成 的 有 向 图 ,其 中 结 点 表示 事物 、 对象. 状态 和 概念 等 ,有 两 类 ; 连接 弧 
表示 结 点 间 的 关系 ,有 三 类 ,可 用 标记 说 明 具体 的 语义 关系 。 

两 类 结 点 分 别 是 ， 

。 由 关系 常量 标识 的 结 点 ,对 应 分 类 类 别 或 属性 ; 

。 由 对 象 常量 标识 的 结 点 ,对 应 领域 对 象 。 

三 类 连接 结 点 的 弧 分 别 是 : 

。 子 集 弧 (又 称 is-isa 连接 ) 

。 集 合 从 属 关 系 弧 ( 又 称 实例 连接 ) 

。 函数 弧 

语义 网 络 是 一 种 表达 能 力 强 而 且 灵 活 的 知识 表示 方法 ,丰富 的 语义 关系 不 但 使 语义 网 
络 能 够 方便 地 表示 事物 的 属性 和 状态 ,还 能 恰当 地 表示 事物 之 间 的 关系 。 目 前 ,语义 网 络 已 
被 广泛 应 用 于 专家 系统 .自然 语言 理解 等 人 工 智能 领域 中 。 

一 个 语义 网 络 示例 如 图 11. 2 所 示 。 
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图 11.2 语义 网 络 的 示例 
3. 概念 图 


uM 


概念 结构 (Concept Structure) 是 由 美国 的 John F. Sowa 提出 的 基于 语言 学 .心理 学 和 
哲学 为 一 体 的 一 种 最 新 的 知识 表示 方法 ,不 但 能 够 表示 传统 知识 表示 方法 所 表示 的 知识 ,而 
且 具 有 表达 能 力 强 .直观 .可靠 性 好 、 易 于 实现 、 接 近 自 然 语 言 等 特点 。 因 此 , 自 提 出 后 ,就 在 
美国 得 到 了 很 高 的 评价 。 

概念 图 的 形式 化 定义 为 CG 二 (Concept, Relation,F) ,其 中 : 


* Concept lc «co ,… ,cnm) 是 概念 结 点 (Concept Node) 的 集合 ; 
* Relation= {r; ,rm,…,ml} 是 关系 结 点 (Relation Node) 的 集合 ; 
* F(Concept X Relation) UC Relation X Concept) 是 弧 的 集合 。 

概念 图 以 图 形 表示 是 一 种 有 向 连通 图 ,包括 概念 结 点 和 概念 关系 结 点 两 种 。 弧 的 方向 
代表 概念 结 点 和 概念 关系 结 点 之 间 的 联系 。 概 念 结 点 表示 问题 域 中 的 一 个 具体 的 或 抽象 的 
实体 ,概念 关系 结 点 表示 概念 结 点 之 间 的 联系 。 

概念 图 中 ,概念 结 点 用 方 框 表示 ,概念 关系 结 点 用 圆圈 表示 ,有 向 弧 标 出 了 概念 关系 结 
点 所 邻接 的 概念 结 点 ,例如 A girl. Sue. is eating pie fast 对 应 的 概念 图 如 图 11. 3 所 示 。 


A girl: Sue | ©; eat manr »| fast 


pie 


11.3 概念 图 的 示例 


此 外 ,为 了 便于 终端 输出 ,还 可 用 方 括号 表示 概念 结 点 , 圆 括号 表示 关系 结 点 。 概 念 图 
的 这 种 表示 形式 也 称 为 线性 形式 (Linear Form)。 上 面 的 例子 采用 线性 形式 可 表示 为 : 


[eat] - (agnt) - [girl: Sue] 
(object) - [pie] 
(manr) - [fast] 


一 个 概念 结 点 可 以 有 两 个 域 ,其 中 一 个 称 为 类 标号 域 (Concept Label), 如 上 例 中 的 


girl, 类 标号 域 表示 一 般 的 、 不 确定 的 概念 ; 另 一 个 为 所 指 域 (Referent), 如 上 例 中 的 Sues 
所 指 域 表示 具体 的 概念 ,可 以 是 一 个 特定 的 值 或 值 的 集合 。 实 际 上 referent 是 concept type 
的 具体 值 ,如 上 例 的 girl 泛 指 女孩 ,而 Sue 表示 一 个 特定 的 名 叫 Sue 的 女孩 。 由 此 可 以 看 出 
引入 所 指 域 后 ,概念 被 限定 为 一 个 确定 的 值 。 另 外 ,概念 之 间 具 有 类 层次 关系 (Type 
Hierarchy Relation). 如 person 是 animal 的 子 类 (Subtype), animal 是 person 的 超 类 
(Supertype) 等 。 

例如 已 知 概念 结 点 的 类 标号 集 为 {animal, wild-animal, pet, tiger, carnivore, feline, 
wild-feline.lion.jaguar) ,其 类 层次 关系 如 图 11. 4 所 示 。 


animal 
wild-animal carnivore pet 
feline 


wild-feline 


lion tiger jaguar 
图 11.4 概念 结 点 的 类 层次 关系 


4. 框架 
框架 通常 由 描述 事物 各 方面 的 模 组 成 ,每 个 槽 可 以 有 若干 个 侧面 ,而 每 个 侧面 又 可 以 有 
若干 个 值 。 框 架 的 一 般 结 构 是 : 


< 框架 名 > 
< 槽 1>< 侧 面 11>< 值 111> … 
< 侧面 12>< 值 121> … 


«fill 2>< 侧 面 21>< 值 211> … 
< 槽 n>< 侧 面 n1>< 值 n11>… 


< 侧面 nm» «ffi nm1> … 


较 简单 的 情景 是 用 框架 表示 诸如 人 和 房子 等 事 表 11.2 框架 的 简单 实例 
物 。 例 如 一 个 人 可 以 用 职业 、 身 高 和 体重 等 描述 ,因而 JOHN Isa PERSON 
TONETA LAE AR RH, CHR S RE Ri AQ Profession | PROGRAMMER 
时 ,再 用 这 些 项 的 具体 值 填 人 到 相应 的 槽 中。 如 一 1em 

eight 719kg 

K 11. 2 所 示 为 描述 John 的 框架 实例 。 

框架 是 一 种 通用 的 知识 表示 方法 ,对 于 如 何 运用 框架 还 没有 一 种 统一 的 形式 ,常常 取决 
于 各 种 问题 的 不 同 需要 。 
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框架 是 一 种 复杂 结构 的 语义 网 络 。 因 此 语义 网 络 推理 中 的 匹配 和 特性 继承 在 框架 中 也 
可 以 使 用 。 此 外 ,由 于 框架 用 于 描述 具有 固定 格式 的 事物 、 动 作 和 事件 ,因此 可 以 在 新 的 情 
况 下 ,推论 出 未 被 观察 到 的 事实 。 

框架 包含 所 描述 的 情况 或 物体 的 多 方面 信息 ,包含 物体 必须 具有 的 属性 。 在 填充 框架 
的 各 个 槽 时 ,要 用 到 这 些 属性 。 框 架 描述 它们 所 代表 的 概念 的 典型 实例 。 

下 面 ,给 出 一 个 定位 零件 源 框架 ,如 图 11.5 所 示 。 


定位 零件 

种 类 : (《 定 位 板 》，《 导 向 零件 》,《 挡 料 零 件 》) 
作用 : (确定 毛坯 在 模具 中 的 准确 位 置 ) 

固定 : (UD 

送料 方式 : CFT) 


d 


定位 板 挡 料 零件 导向 零件 
类 属 : 《定位 零件 》 Aj. 《定位 零件 》 AX. 《定位 零件 》 —— 
作用 : 范围 : (单个 毛坯 ) | | 作用 : 范围 : (条 料 ， 带 料 ) 作用 : 范围 : (条 料 ， 带 料 ) 
形状 : 《毛坯 形状 默认 : 条 料 i seii 
定位 : (以 毛坯 的 外 形 或 “| | 定位 : ( 送 进 方向 ) 定位 : (左右 方向 
^d 类 :(《 固 定 挡 料 销 》 ，《 活 动 挡 料 销 种 类 : (《〈 导 料 板 》，《 导 料 销 》 ) 
CER 种 类 ; (固定 挡 料 销 》，《 活 动 挡 料 销 ) A 
| | 
固定 挡 料 销 导 料 板 
类 属 ，《〈 挡 料 零件 》 类 属 ，《 导 向 零件 》 
种 类 : (( 圆 头 挡 料 销 )，《 钧 形 挡 料 销 > ) 形状 : (GB2865 5-81) 
默认 ，《 贺 头 挡 料 销 》 规格 : (长 度 X 宽 度 X 厚 度 ， 材 料 ) 
选用 依据 : (条 料 厚度 ) 选用 依据 : (条 料 厚度 ) 
圆 头 挡 料 销 


类 属 : 《固定 挡 料 销 》 
形状 : (GB2866 11-81) 
规格 : ( 头 部 直径 X 杆 部 直径 X 高 度 ) 


11.5 定位 零件 源 框架 


用 一 个 框架 具体 体现 一 个 特定 情况 的 过 程 ,经 常 不 是 很 顺利 。 当 这 一 过 程 碰 到 障碍 时 ， 
经 常 不 必 放 弃 原 来 的 努力 去 从 头 开始 ,有 很 多 办 法 可 供 参 考 。 

(1) 选择 和 当前 情况 相对 应 的 当前 框架 片断 ,并 把 这 一 框架 片断 和 候补 框架 进行 匹配 ， 
选择 最 佳 匹配 。 

(2) 尽管 当前 的 框架 和 需求 描述 的 情况 之 间 存 在 不 相 匹配 的 地 方 ,但 仍然 可 以 继续 应 
用 这 一 框架 。 

(3) 查询 框架 之 间 专 门 保存 的 链 , 以 提出 应 朝 哪个 方向 进行 试探 的 建议 。 

CD 沿 着 框架 系统 排列 的 层次 结构 向 上 移动 ( 即 从 狗 框 架 一 哺乳 动物 框架 一 动物 杠 
架 ) ,直到 找到 一 个 足够 通用 ,并 且 不 与 已 有 事实 矛盾 的 框架 。 


11.4 知识 可 视 化 


Eppler M. J. 和 Burkard R. A. 认为 知识 可 视 化 (Knowledge Visualization) 是 在 科学 计 
算 可 视 化 ,数据 可 视 化 和 信息 可 视 化 基础 上 发 展 起 来 的 新 兴 研 究 领域 ,应 用 视觉 表征 手段 ， 
促进 群体 知识 的 传播 和 创新 。 一 般 而 言 , 知 识 可 视 化 领域 研究 的 是 视觉 表征 在 提高 两 个 或 
两 个 以 上 人 之 间 的 知识 传播 和 创新 中 的 作用 。 因 此 ,知识 可 视 化 指 的 是 所 有 可 以 用 来 建构 
和 传达 复杂 知识 的 图 解 手 段 。 除 了 传达 事实 信息 之 外 ,知识 可 视 化 的 目标 在 于 传输 见解 
(insights) ,经 验 (experiences) , JE (attitudes) ,价值 观 (values) , H] 9B (expectations) , WA 
(perspectives) ,意见 (opinions) 和 预测 (predictions) 等 ,并 以 这 种 方式 帮助 他 人 正确 地 重 构 、 
记忆 和 应 用 这 些 知识 。 目 前 常用 的 知识 可 视 化 工具 包括 如 下 几 种 。 

1. 概念 图 (Concept Map) 

概念 图 是 康 乃 尔 大 学 的 诺 瓦 克 (J. D. Novak) 博 士 根据 奥 苏 贝尔 (David P. Ausubel) 的 
有 意义 学 习 理 论 提 出 的 一 种 教学 技术 。 根 据 诺 瓦 克 博 士 的 定义 ,概念 图 是 组 织 和 表征 知识 
的 工具 。 它 通常 将 某 一 主题 的 有 关 概 念 置 于 圆圈 或 方 框 之 中 ,然后 用 连 线 将 相关 的 概念 和 
命题 连接 , 连 线 上 标明 两 个 概念 之 间 的 意义 关系 。 概 念 图 使 用 结 点 代表 概念 . 连 线 表示 概念 
间 关 系 ,由 包含 一 个 概念 的 结 点 及 连接 组 成 。 连 接 被 贴 上 标签 并 用 箭头 符号 指示 方向 ,被 
贴 上 标签 的 连接 解释 结 点 之 间 的 关系 ,箭头 描绘 关系 的 方向 ,概念 一 连接 词 一 概念 ”这 
样 一 个 三 元 组 形成 了 一 个 命题 。 另 外 ,概念 图 是 具有 层次 结构 的 ,最 高 级 的 概念 处 在 项 
端 。 人 们 可 以 用 适合 的 关联 词 说 明 不 同 层次 的 概念 之 间 的 关系 ,并 确定 不 同 分 支 之 间 的 
横向 联系 。 

概念 图 这 一 知识 可 视 化 方法 最 大 的 优点 在 于 对 知识 的 体系 结构 (概念 及 其 概念 之 间 的 
关系 ) 一 目 了 然 地 表达 出 来 ,还 突出 表现 了 知识 体系 的 层次 结构 。 

此 外 ,概念 图 还 是 很 好 的 结构 化 知识 评估 工具 。 为 了 方便 使 用 计算 机 辅助 创建 和 评估 
概念 图 ,美国 评估 ,标准 和 学 生 测 试 中心 (Center for Research on Evaluation. Standards, 
and Student Testing,CRESST) 对 概念 图 的 概念 和 连接 词 进 行 了 预定 义 , 提 出 了 知识 地 图 
(Knowledge Maps) 。 

随 着 计算 机 技术 的 发 展 , 人 们 开发 了 一 些 用 于 绘制 概念 图 的 计算 机 软件 工具 , 如 
Inspiration 。 

2. 思维 导 图 (Mind Map) 

思维 导 图 最 初 是 20 世纪 60 EREA JEJE * PLE CTony Buzan) 创 造 的 一 种 笔记 方 
ik. JEJE * 巴 赞 认为 传统 的 草拟 和 笔记 方法 有 埋没 关键 词 .不易 记 忆 、 浪 费时 间 和 不 能 有 效 
地 刺激 大 脑 四 大 不 利之 处 ,而 简洁 、 效 率 和 积极 的 个 人 参与 对 成 功 的 笔记 有 至 关 重 要 的 作 
用 。 在 草拟 和 笔记 的 办 法 成 效 越 来 越 小 的 情况 下 .需要 一 种 可 以 不 断 增多 回报 的 办 法 ,这 种 
办 法 就 是 思维 导 图 。 尽 管 思维 导 图 的 初衷 只 是 为 了 改进 笔记 方法 ,其 作用 和 威力 还 是 在 日 
后 的 研究 和 应 用 中 不 断 显 现 出 来 ,被 广泛 应 用 于 个 人 、 家 庭 .教育 和 企业 。 

托尼 。 巴 赞 认为 思维 导 图 是 对 发 散 性 思维 的 表达 ,因此 也 是 人 类 思维 的 自然 功能 。 他 
认为 思维 导 图 是 一 种 非常 有 用 的 图 形 技术 ,是 打开 大 脑 潜能 的 万 能 钥匙 ,可 以 应 用 于 生活 的 
各 个 方面 ,其 改进 后 的 学 习 能 力 和 清晰 的 思维 方式 会 改善 人 的 行为 表现 。 
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随 着 计算 机 技术 的 发 展 , 人 们 开发 了 一 些 用 于 绘制 思维 导 图 的 计算 机 软件 工具 , 如 
FreeMind, MindManager, 

3. 认 知 地 图 (Cognitive Maps) 

认 知 地 图 也 被 称 为 因果 图 (Causal Maps) ,是 由 Ackerman & Eden 提出 的 , 它 将 “想法 ” 
(ideas) 作 为 结 点 ,并 将 其 相互 连接 起 来 。 想 法 不 同 于 概念 (concepts) ,它们 大 多 是 句子 或 段 
落 。 认 知 地 图 是 以 个 体 建构 理论 (Personal Construct Theory) 为 基础 提出 的 ,其 中 的 “ 想 
法 ?都 是 通过 带 箭头 的 连接 线 连 起 来 ,但 连接 上 没有 连接 词 , 连 接线 的 隐 含 意思 是 “因果 关 
系 ? 或 “导致 , 且 没 有 层次 的 限制 。 认 知 地 图 用 来 帮助 人 们 规划 工作 ,促进 小 组 的 决策 。 

4. 语义 网 络 (Semantic Networks) 

在 心理 学 中 ,语义 网 络 被 定义 为 词语 或 概念 的 语义 相似 性 或 相关 程度 。 然 而 ,Fisher 将 
其 定义 为 结 点 和 连接 组 成 的 网 络 , 有 连接 词 但 不 严格 限制 在 层次 结构 上 。 这 样 ,语义 网 络 更 
像 概念 图 ,而 不 像 主流 心理 学 和 计算 机 科学 中 定义 的 那样 。 与 概念 图 一 样 ,语义 网 络 以 概念 
和 有 意义 的 不 受 限 的 连接 词 为 基础 ,形成 基本 的 实例 或 命题 。Fisher 认为 语义 网 络 可 以 被 
看 成 多 维 的 ,而 非 二 维 的 。 语 义 网 络 可 以 非常 大 ,包含 成 百 上 千 的 相互 关联 的 概念 。 由 于 它 
非常 大 ,使 用 者 在 某 一 时 刻 只 能 看 到 其 中 的 一 个 部 分 ,也 就 是 与 中 心 概念 直接 关联 的 概念 。 

5. 思维 地 图 (Thinking Maps) 

思维 地 图 是 由 David Hyerle 博士 1988 年 开发 以 帮助 学 习 的 语言 。 在 这 种 语言 中 , 教 
师 和 学 生 可 以 使 用 括号 图 (Brace Map) ,桥接 图 (Bridge Map) E 3 [E (Bubble Map) 、 圆 圈 
图 (Circle Map) 、 双 起 泡 图 (Double Bubble Map)、 流 程 图 (Flow Map)、 复 流程 图 (Multi- 
Flow Map) 和 树 状 图 (Tree Map) 共 八 种 图 ,用 以 帮助 阅读 理解 .写作 过 程 问题 解决 、 思 维 技 
巧 提高 。 思 维 地 图 的 软件 工具 目前 也 可 获得 。 

学 生 使 用 括号 图 分 析 物 理 对 象 ,在 左 侧 的 线 上 是 整个 对 象 的 名 称 或 图 像 ,在 右 侧 的 第 一 
个 括号 的 线 上 是 对 象 的 主要 组 成 部 分 ; 桥接 图 为 学 生 提 供 了 类 比 过 程 的 工具 ; 起 泡 图 用 来 
描述 形容 词 ( 和 形容 短语 ) 的 使 用 ; 圆圈 图 用 来 进行 头脑 风暴 以 及 通过 提供 情景 信息 呈现 一 
个 主题 的 先前 知识 ; 双 起 泡 图 是 比较 和 对 比 的 工具 ; 流程 图 用 来 对 信息 进行 排序 ; 复 流程 
图 用 于 显示 和 分 析 因 果 关 系 ; 中 间 和 矩形 表示 的 是 事件 ,左边 是 时 间 发 生 的 原因 ,右边 是 事件 
产生 的 影响 ; 树 形 图 用 于 对 事物 和 观点 进行 归 类 。 

知识 可 视 化 以 图 形 设计 、 认 知 科学 等 为 基础 ,与 视觉 表征 有 着 密切 关联 。 视 觉 表征 是 知 
识 可 视 化 构成 的 关键 因素 。 如 概念 图 是 基于 有 意义 学 习 理 论 提出 的 图 形 化 知识 表征 ; 知识 
语义 图 以 图 形 的 方式 揭示 概念 及 概念 之 间 的 关系 ,形成 层次 结构 ; 因果 图 是 以 个 体 建构 理 
论 为 基础 而 提出 的 图 形 化 知识 表征 技术 。 知 识 可 视 化 是 通过 视觉 表征 形式 促进 知识 的 传播 
与 创新 。 无 论 是 知识 可 视 化 设计 还 是 应 用 ,视觉 表征 都 是 这 个 过 程 中 的 关键 部 分 。 因 此 , 知 
识 可 视 化 的 价值 实现 有 赖 于 它 的 视觉 表征 形式 。 


11.4.1 主要 技术 
RIA(Rich Internet Application ,丰富 互联 网 应 用 程序 ) 构 成 了 客户 端 技术 基础 ,在 进行 


可 视 化 设计 、 探 索 、 发 布 .共享 阶段 起 着 关键 的 作用 。 在 目标 产品 当中 ,需要 采用 RIA 技术 
实现 体系 化 的 完备 的 客户 端 组 件 仓库 ,在 具备 优异 表现 力 的 同时 ,还 要 满足 跨 浏览 器 、 体 积 


小 、 运 行 高 效 的 要 求 。 

RIA 结合 了 传统 Web 应 用 的 部 署 灵活 与 桌面 应 用 的 友好 体验 两 方面 优点 。RIA 通常 
是 将 执行 环境 设计 为 浏览 器 的 一 个 插件 (Plug-in) ,进而 在 其 上 面 执行 各 种 应 用 ,目的 是 为 
了 尽 可 能 地 与 Web 兼容 。 

富 客 户 端 集成 了 桌面 应 用 的 交互 性 和 传统 Web 应 用 的 部 署 灵活 性 的 两 方面 优点 ,从 而 
创建 单一 完整 的 用 户 体验 。 富 客户 端 中 * 富 ?可 理解 为 具有 丰富 的 数据 模型 和 丰富 功能 的 界 
面 , 进 而 产生 丰富 多 彩 的 用 户 体验 。 

富 客户 端的 一 个 显著 特点 是 服务 和 表现 完全 物理 上 分 离 。 其 技术 上 还 没有 成 熟 的 统一 
标准 ,因而 富 客户 端 只 能 说 是 一 种 架构 方式 。 

富 客户 端 技术 提供 了 一 个 多 样 化 的 输入 方式 和 符合 直觉 的 及 时 反馈 方式 ,充分 利用 本 
地 计算 机 的 资源 ,减少 网 络 流量 ,同时 还 保留 了 由 服务 器 自动 更 新 的 派发 功能 。 富 客户 端 技 
术 正 在 不 断 的 完善 中 ,并 进一步 扩展 浏览 器 功能 ,使 之 提供 更 加 高 效 和 友好 的 用 户 接口 。 

1. 产生 背景 

胖 客户 端 技术 的 部 署 更 新 难度 大 和 瘦 客 户 端 技术 不 够 友好 的 用 户 体验 始终 让 开发 者 和 
用 户 无 法 回避 ,用 户 需要 找到 一 种 新 技术 以 解决 这 些 问 题 。 

早期 一 些 软件 设计 人 员 曾 尝试 过 在 开发 的 系统 中 同时 应 用 C/S 和 B/S 结构 ,这 样 可 以 
发 挥 胖 客户 端 和 瘦 客 户 端 互补 的 优势 。 其 具体 操作 是 将 应 用 系统 的 功能 需求 进一步 分 解 ， 
然后 根据 不 同 的 模块 需求 选择 合适 的 客户 端 实现 。 胖 客户 端 实现 那些 要 求 丰富 交互 体验 和 
快速 响应 的 需求 ; 瘦 客 户 端 浏 览 器 实现 那些 信息 收集 与 发 布 且 广泛 面 对 用 户 群 的 需求 。 两 
种 结构 的 结合 运用 增加 了 系统 开发 的 复杂 性 并 大 幅 提高 部 署 和 实现 的 成 本 。 系 统 需求 如 何 
分 解 才 合理 和 瘦 、 胖 客户 端 之 间 的 状态 与 信息 如 何 保证 一 致 等 等 ,这 些 问题 都 给 应 用 系统 的 
开发 实现 带 来 较 大 的 额外 难度 ,而 且 随 着 系统 规模 的 日 益 增 大 ,问题 也 越 来 越 多 ,这 种 结合 
变 得 不 可 取 。 

另外 一 些 软件 设计 人 员 却 走 了 一 条 变革 的 路 线 , 他 们 在 已 经 积累 的 架构 模式 上 寻找 
出 路 。 他 们 认为 完全 丢弃 已 有 的 技术 并 全 新 开发 一 种 技术 是 不 可 行 的 ,正确 的 做 法 是 对 
现 有 的 客户 端 进 行 改良 ,为 适应 新 的 需求 而 相互 取长补短 。 这 些 软件 设计 人 员 也 分 为 两 
部 分 : 一 部 分 人 着 手 改进 胖 客户 端 使 其 易于 维护 和 部 署 具有 类 似 B/S 结构 的 特点 ; 另 一 
部 分 则 选择 了 对 B/S 结构 的 交互 功能 进行 加 强 , 使 原 有 瘦 客 户 端 也 能 提供 快速 的 应 用 程 
序 响应 .丰富 的 用 户 交互 体验 以 及 复杂 逻辑 应 用 的 实现 等 ,这 便 是 富 客户 端 技 术 的 早期 
萌芽 。 

从 2003 年 富 客 户 端 的 概念 出 现 到 今天 被 广泛 关注 ,期 间 出 现 了 很 多 富 客 户 端 技 术 和 产 
品 ,如 Google 地 图 等 。Web 2. 0 标准 产生 与 应 用 的 同时 也 大 大 推动 了 富 客户 端 技术 的 快速 
发 展 。 众 多 的 门户 网 站 和 电子 商务 企业 也 开始 参与 富 客 户 端 技术 的 开发 与 应 用 , 富 客 户 端 
技术 的 研究 应 用 也 进入 了 高 潮 期 。 

一 个 优秀 的 富 客户 端 应 用 程序 应 该 满足 用 户 定制 .如 Gmail 一 样 无 须 等 待 以 及 桌面 化 
等 特点 。 富 客户 端 应 用 程序 一 般 会 提供 日 期 选择 器 .定制 窗口 .选项 卡 、 微 调控 制 器 和 标尺 
等 工具 。 富 客户 端 应 用 程序 可 以 调用 客户 端的 硬件 资源 和 软件 资源 ,如 调用 微软 Office 组 
件 中 的 Word 和 Excel 等 进行 文档 编辑 和 数据 计算 。 

最 早 开发 富 客户 端 应 用 的 是 Java Applet. RERA E) HTML 页 面 中 并 在 客户 端 运 行 。 
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2007 年 Sun 公司 发 布 的 Java FX 是 准备 替代 Java Applet 的 一 种 技术 平台 。 目 前 应 用 最 广 
的 富 客户 端 技术 应 该 是 AJAX(Asynchronous JavaScript And XML) ,可 以 说 Web 2. 0 由 于 
AJAX 的 出 现 而 发 展 起 来 的 。 典 型 的 AJAX 应 用 当 属 Google 的 Gmail 和 Google Map 了 。 
为 了 更 好 满足 开发 者 的 需要 ,目前 已 经 涌现 出 许 许 多 多 开源 的 AJAX 框架 和 商用 的 AJAX 
框架 供 开 发 者 选择 使 用 。 

2. 发 展 趋势 

RIA 开发 需要 具备 富 客户 端 ,服务 器 和 开发 工具 三 个 要 素 。 由 于 富 客户 端 尚未 发 布 任 
何 标准 ,各 种 技术 都 在 其 各 自 的 方向 创新 发 展 。 富 客户 端 技术 很 好 地 结合 了 B/S 结构 的 优 
势 ,解决 了 客户 端 程序 的 安装 和 维护 问题 ,也 解决 了 传统 的 胖 客 户 端 对 跨 平 台 支 持 的 局 限 。 
Java Web Start 是 美国 Sun 公司 最 早 提出 的 实用 富 客 户 端 技 术 ,Google 公司 研究 较 多 也 较 
为 成 熟 的 AJAX 技术 也 应 运 而 生 , 此 外 还 有 改进 胖 客户 端 类 型 的 ,如 Microsoft 的 Smart 
Client, Eclipse 的 RCP(Rich Client Platform) 技 术 和 采用 加 强 瘦 客户 端 应 用 的 ,如 Mozilla 
开源 的 XUL 技术 、Adobe 的 Flex 技术 等 。AJAX 与 其 他 富 客户 端 技术 的 比较 ,如 表 11. 3 
所 示 。 


表 11.3 富 客户 端 技术 常见 特性 比较 


技术 名 称 Java Web Smart Eclipse | Mozilla 
特性 AJAX | Sun | Fe | Chen | rce | XUL 
快速 的 程序 响应 能 力 较 好 较 好 较 差 好 较 好 一 般 
良好 的 跨 平台 能 力 好 好 好 差 好 好 
方便 部 署 与 维护 好 较 好 好 一 般 较 差 好 
利用 本 地 资源 能 力 一 般 较 好 一 般 好 好 gx 
终端 设备 支持 能 力 较 差 较 差 一 般 较 好 gx gx 
友好 易 用 的 用 户 体验 一 般 一 般 好 较 好 较 好 较 好 
强大 的 开放 工具 支持 较 差 较 差 较 好 好 好 较 差 


Java Web Start( 简 称 JWS) 人 允许 用 户 在 完全 脱离 Web 连接 的 情况 下 运行 和 管理 客户 端 
应 用 程序 ,解决 了 服务 器 独立 分 发 和 更 新 客户 端的 部 署 方案 。JWS 是 安装 JRE 时 作为 JRE 
的 一 部 分 自动 被 安装 的 。Java Web Start 应 用 程序 可 以 选择 三 种 方式 进行 启动 , 即 在 浏览 
器 中 单 击 链接 启动 JWS 内 置 的 应 用 程序 管理 器 启动 和 JWS 内 置 的 应 用 程序 管理 器 提供 
的 历史 快速 访问 。 无 论 选 择 哪 种 方式 启动 ,其 应 用 程序 运行 结果 是 相同 的 ,而 且 每 次 都 与 
Web 服务 器 连接 来 检查 特定 应 用 程序 的 更 新 版 本 。 

Flex 技术 是 在 客户 端 运行 的 可 执行 脚本 。 它 是 原来 的 Macromedia 公司 (现在 是 
Adobe 公司 ) 旨 在 增强 B/S 结构 表示 层 效 果 研 发 的 RIA 技术 ,该 技术 提供 真实 而 友好 的 用 
户 体验 。Flex 拥有 强大 的 类 库 , 用 来 创建 表示 层 ,其 应 用 程序 与 传统 的 Web 应 用 程序 的 主 
要 区 别 在 于 Flex 技术 (如 数据 格式 .字段 校 验 . 过 滤 、 合 成 视频 .工具 提示 、` 行 为 效果 等 处 理 ) 
最 适合 在 客户 端 进行 。Flex 应 用 程序 过 渡 流 畅 ,提供 不 间断 的 工作 流 。Flex 开发 模型 提供 
的 虚拟 机 是 Flash Player, 它 的 应 用 需要 运行 在 Flash Player 9 或 更 高 版 本 上 。 

智能 客户 端 (Smart Client) 是 微软 公司 . NET 平台 上 的 新 特性 。Smart Client 既 具 备 
B/S 结构 更 新 与 升级 的 便捷 ,同时 还 拥有 Windows 应 用 程序 的 强大 功能 。 智 能 客户 端 是 将 


胖 客 户 端 应 用 程序 功能 强大 的 优点 与 瘦 客 户 端 应 用 程序 的 部 署 和 管理 便捷 的 优点 结合 起 来 
的 产物 。 智 能 客户 端 应 用 程序 能 够 提供 内 容 丰富 且 迅 速 响应 的 友好 界面 和 强大 的 客户 端 处 
理 能 力 。 智 能 客户 端 可 以 利用 客户 端的 硬件 和 软件 资源 ,使 应 用 程序 更 加 紧密 地 与 客户 计 
算 机 工作 环境 集成 。 由 于 使 用 客户 端 上 的 资源 .Smart Client 可 以 大 大 减少 对 服务 器 端的 
硬件 要 求 。 

Eclipse RCP 是 Eclipse 核心 功能 之 一 ,RCP 包括 大 量 的 控件 和 插件 机 制 使 得 Java Æ 
户 端 的 开发 比 以 往 更 为 便捷 和 简单 。Eclipse 不 论 从 显示 速度 上 还 是 界面 友好 程度 上 都 比 
其 他 富 客户 端 技术 更 胜 一 筹 。Eclipse 平台 具有 强大 的 可 定制 性 ,其 结构 本 身 就 是 一 个 优美 
的 插件 式 结构 ,主要 功能 都 能 以 插件 的 方式 加 入 。 由 于 Eclipse 标准 化 的 组 件 模型 和 普及 的 
可 扩展 性 ,摆脱 了 失败 Swing 和 AWT, 使 富 客户 端 程序 实现 起 来 更 为 简单 。 

XUL(XML User-interface Language) 是 Mozilla 使 用 XML 描述 用 户 界 面 的 语言 。 同 
时 也 是 一 种 基于 XML 的 富 客 户 端 技术 。XUL 被 设计 用 于 创建 可 移植 的 用 户 界面 ,基于 
XUL 的 应 用 还 可 以 呈现 漂亮 的 字体 、 图 形 以 及 快速 的 界面 布局 且 XUL. 程序 界面 部 署 和 定 
制 。XML 插入 到 XUL 当中 较为 容易 ,XUL 很 好 地 兼容 了 XML 语言 。 此 外 ,XUL 中 的 文 
字 可 以 略微 修改 即 可 翻译 成 男 一 个 国家 的 语言 ,很 容易 被 本 地 化 。XUL 核心 是 使 用 XML 
描述 图 形 界面 进而 减少 GUI 程序 开发 的 工作 量 。 

现 有 的 富 客户 端 技术 还 包括 JavaFX, Silverlight 等 等 。 尽 管 目 前 有 许 许 多 多 的 富 客户 
端 技术 ,但 是 AJAX 采用 广泛 ,AJAX 已 经 是 一 个 无 处 不 在 的 富 客户 端 , 可 以 在 不 同 的 浏览 
器 和 操作 系统 上 运行 。 它 是 一 个 跨 平 台 、 跨 操作 系统 和 跨 浏 览 器 的 富 客户 端 技 术 。AJAX 
使 B/S 结构 中 客户 端的 设计 提升 到 一 个 新 台阶 ,并 且 使 客户 端 使 用 变 得 更 加 友好 和 灵活 。 

3. 工作 机 制 、 原理 和 应 用 

Google 公司 的 Jesse James Garrett 在 2005 年 提出 了 AJAX 这 一 概念 ,AJAX 是 几 种 
浏览 器 技术 的 组 合 , 而 不 是 新 的 语言 , 它 包括 XHTML 结构 标准 和 CSS 表示 应 用 .DOM 
(Document Object Model) 的 交互 和 动态 显示 、XMLHttpRequest 异步 请 求 服务 器 返回 
ResponseText 或 者 ResponseXML。 这 几 项 技术 协同 将 客户 端 和 服务 器 间 的 同步 应 用 改 
变 为 异步 通信 与 交互 。 以 上 几 种 技术 的 整合 最 终 将 浏览 器 客户 端 加 强 为 富 客户 端 应 用 
程序 。 

AJAX 应 用 能 够 做 到 友好 的 用 户 体 验 是 其 广 受 欢迎 的 原因 ,同时 也 反映 了 人 们 迫切 希 
望 解决 传统 Web 应 用 固有 的 弊端 。 传 统 的 Web 工作 模型 是 服务 器 每 次 生成 新 的 HTML 
页 面 并 返回 给 客户 端的 浏览 器 。 可 是 在 许多 网 站 中 大 部 分 页 面 的 内 容 , 如 页 面 的 页 头 、 页 尾 
和 广告 等 部 分 显示 的 是 相同 的 内 容 ,不 同 的 仅 是 一 些 局 部 内 容 , 但 传统 Web 应 用 每 次 请 求 
服务 器 都 会 以 全 新 且 完 整 的 页 面 返 回 。 这 样 不 管 是 对 用 户 的 时 间 、 带 宽 与 CPU 耗 用 而 言 ， 
还 是 对 Internet 服务 提供 商 的 高 价 带宽 与 空间 而 言 无 疑 都 是 一 种 浪费 。AJAX 技术 改变 了 
传统 Web 应 用 程序 在 处 理 客户 端的 请 求 时 一 并 提交 的 缺陷 ,页 面 内 容 更 新 时 不 需要 全 部 内 
容 都 全 新 装载 , 仅 是 装载 需要 更 新 的 部 分 即 可 。 简 言 之 ,AJAX 技术 是 需要 什么 就 请 求 获取 
什么 ,需要 多 少 就 请 求 获 取 多 少 。 这 样 , 既 减 小 了 数据 传输 产生 的 网 络 带宽 开销 ,也 缩短 了 
用 户 的 等 待 时 间 , 随 之 也 降低 了 对 资源 的 浪费 。 

与 传统 Web 应 用 模式 不 同 的 是 AJAX 在 浏览 器 端 添 加 了 用 户 响应 层 , 如 图 11.6 所 示 。 
向 服务 器 端 发 送 请 求 时 不 必 刷 新 整个 页 面 ,服务 器 端 对 客户 端 发 来 的 请 求 进行 处 理 后 ,将 响 
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应 发 回 给 客户 端 。 客 户 端 与 服务 器 只 进行 数据 层面 的 交换 ,每 次 不 用 刷新 界面 ,也 不 用 将 数 
据 处 理 的 工作 每 次 都 提交 给 服务 器 完成 。 这 样 即 减 轻 了 服务 器 的 负荷 ,又 加 快 了 响应 速度 ， 
缩短 了 用 户 等 待 的 时 间 。 


浏览 器 客户 端 
用 户 接口 
P] 
JavaScri 用 
URE ) BIS ns 数据 
用 户 接口 Ajax 引擎 
HTTP | 请 求 HTTP| 请 求 
http(s) 传输 http(s) 传 输 
HTML+ICSS 数 据 XML 数据 
Web 服务 器 web 和 /或 XML 服务 器 
4 
ncn Ee 数据 存储 、 后 台 处 理 和 
现 有 系统 现 有 系统 
服务 器 端 系统 服务 器 端 系统 
传统 的 Web 应 用 模型 AJAX 的 Web 应 用 模型 


11.6 传统 的 Web 应 用 模型 和 AJAX 的 Web 应 用 模型 的 比较 


JavaScript 设计 的 AJAX 引擎 ,总 是 将 客户 端的 请 求 异 步 发 送 到 服务 器 端 ,然后 对 服务 
器 响应 返回 的 数据 分 派 , 再 根据 返回 的 数据 是 ResponseText 还 是 ReponseXML 选择 相应 
的 函数 来 处 理 。AJAX 引擎 仅 向 服务 器 发 送 并 取 回 必需 的 数据 进而 浏览 器 不 需 刷 新 整个 页 
面 就 能 更 新 页 面 的 某 一 内 容 。 浏 览 器 也 不 需要 等 待 服务 器 的 响应 ,用 户 就 可 以 继续 在 同一 
页 面 上 继续 操作 ,整个 通信 的 请 求 响应 过 程 对 用 户 都 是 透明 的 。 

AJAX 技术 的 核心 是 JavaScript 对 象 XMLHttpRequest, 通 过 使 用 这 个 对 象 JavaScript 
可 在 不 用 重 载 页 面 的 情况 与 Web 服务 器 交换 数据 ,减少 了 数据 下 载 总 量 , 缩 短 了 客户 端 等 
待 时 间 ,减轻 了 服务 器 和 带宽 的 负担 ,提高 了 服务 器 端的 响应 效率 。 严 格 地 说 ,AJAX 是 一 
种 独立 于 Web 服务 器 软件 的 浏览 器 技术 。AJAX 在 浏览 器 与 Web 服务 器 之 间 使 用 异步 数 
据 传输 的 HTTP 请 求 , 这 样 就 可 使 网 页 从 服务 器 请 求 少 量 的 信息 ,而 不 是 整个 页 面 。 解 决 
了 浏览 器 等 待 数据 传输 的 问题 ,改善 了 用 户 体验 ,使 用 户 可 以 快速 获取 Web 服务 器 的 数据 。 
JavaScript, XML, HTML 和 CSS 在 AJAX 中 使 用 的 Web 标准 已 被 很 好 定义 ,被 多 数 主流 
浏览 器 所 支持 ,AJAX 应 用 程序 具有 很 强 的 跨 浏览 器 和 跨 平台 

AJAX 引擎 是 在 服务 器 与 客户 端 之 间 引 入 中 间 层 。 客 户 端 浏览 器 执行 操作 时 便 加 载 了 
AJAX 引擎 ,JavaScript 调用 AJAX 引擎 来 产生 一 个 HTTP 的 用 户 动作 ,负责 客户 端 与 服务 
器 的 交互 。 浏 览 器 中 更 新 的 不 是 内 容 而 是 应 用 ,服务 器 交付 的 也 不 是 内 容 而 是 数据 。 

使 用 AJAX 技术 的 富 客户 端 交互 方式 与 传统 Web 方式 的 不 同 之 处 在 于 对 服务 器 请 求 
方式 的 差异 。 传 统 Web 应 用 中 ,哪怕 仅仅 是 微小 的 交互 或 者 需要 从 服务 器 得 到 简单 的 数据 
时 ,用 户 都 需要 等 待 服务 器 的 处 理 。 而 且 服 务 器 每 次 都 是 返回 一 个 完整 的 Web 页 面 ,这 样 
会 浪费 时 间 和 占用 许多 带宽 。AJAX 应 用 避免 了 页 面 重 载 产 生 的 白 屏 等 待 和 数据 整体 一 次 
性 提交 的 不 便 , 解 决 了 传统 B/S 结构 软件 更 新 显示 时 必须 刷新 整个 页 面 的 问题 。 

AJAX 的 核心 技术 是 XMLHTTPRequest. 如 何 发 送 和 接收 XMLHTTPRequest 的 基 
本 过 程 可 归纳 为 以 下 六 个 步 又 : 


(D 创建 并 初始 化 XMLHTTPRequest 对 象 。 

(2) 客户 端 发 送 要 处 理 的 请 求 。 

(3) 服务 器 接收 请 求 并 进行 处 理 。 

CON 服务 器 端 返 回响 应 数据 。 

(5) 客户 端 接收 返回 的 响应 数据 。 

(6) 依据 响应 数据 修改 客户 端 页 面 内 容 。 

作为 RIA 应 用 开发 的 一 类 技术 ,AJAX 提供 了 丰富 的 用 户 体验 。AJAX 技术 有 三 大 特 
A: 即 异步 交互 .基于 JavaScript 脚本 和 XML 封装 数据 。AJAX 主要 解决 在 现 有 条 件 下 的 
IE 等 主流 浏览 器 是 如 何在 客户 端 提高 用 户 体验 的 问题 ,用 户 体验 是 客户 满意 度 的 一 个 重要 
指标 。 从 操作 来 看 AJAX 可 以 通过 提供 异步 交互 提高 客户 体验 ,其 异步 交互 模型 如 图 11.7 
所 示 ( 图 片 参考 : JJ Garrett-AJAX:A New Approach to Web Applications, Feb 2005)。 
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图 11.7 AJAX 的 异步 交互 模型 


ExtJS 用 来 开发 RIA 即 富 客户 端的 AJAX 应 用 ,是 由 JavaScript 书写 并 用 来 创建 富 客 
户 端 应 用 界面 的 一 个 AJAX 框架 。ExtJS 可 以 用 在 Java, PHP 等 各 种 语言 开发 的 各 种 富 客 
户 端 应 用 中 。 

许多 AJAX 框架 的 数据 交互 都 是 基于 Json(JavaScript Object Notation) ,如 JQuery, 
ExtJS。 当 下 较为 流行 的 程序 语言 如 VS. NET, 已 经 将 Json 作为 一 个 类 库 , 可 以 与 数据 库 
直接 进行 交互 , 且 无 须 配置 。 若 是 使 用 Java 则 需要 下 载 一 个 Json 包 , 然 后 青 进行 一 些 配置 
APIS 使 用 PHP 同样 也 需要 下 载 一 个 Json 插件 。AJAX 可 以 减少 网 络 传输 的 内 

容 ,Json 可 以 将 传输 内 容 缩减 至 纯 数据 ,然后 利用 JQery 直接 获取 Json 格式 数据 绑 定 到 客 
户 端 控件 上 。 

ExtJS 框架 是 基于 纯 Html/CSS 十 JS 技术 ,并 提供 丰富 的 跨 浏览 器 UI 组件 和 灵活 采用 
JSON/XML 数据 源 开发 ,使 得 服务 端 表示 层 的 负荷 真正 减轻 ,最 终 达到 客户 端的 MVC 三 
层 应 用 。 

ExtJs 支持 多 平台 下 的 主流 浏览 器 Internet Explorer 6+ FireFox 1. 5-- (PC. Mac) 
Safari2 十 ,Opera9 十 。AJAX 主流 框架 与 ExtJS JQuery、Prototype 和 YUI 都 属于 非常 核心 
的 JS 库 。Ext 是 完全 基于 W3C 标准 的 富 客 户 端 框架 以 实现 Web 仿真 C/S 结构 的 应 用 。 

在 ExtJS 中 AJAX 返回 的 必须 是 Json 格式 ,经 AJAX 处 理 后 自动 把 返回 的 文本 实例 为 
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Json 对 象 , 如 { "age" :15} 形 式 。Json 可 以 减少 解析 XML 带 来 的 兼容 性 和 性 能 问题 。 如 
Google maps 就 没有 采用 XML 传递 数据 ,而 是 采用 了 Json 数据 格式 。 
组 件 是 数据 和 方法 的 封装 且 可 多 次 利用 的 程序 部 件 ,一 些 组 件 经 过 重新 封装 后 形成 各 
种 实用 的 控件 。ExtJS 拥有 一 个 结构 和 层次 分 明 、 功 能 齐全 的 庞大 组 件 体系 。ExtUS 组 件 
体系 可 分 为 基本 组 件 . 工 具 栏 组 件 和 表单 及 其 元 素 组 件 三 类 。ExtJS 开发 时 仅 需要 直接 调 
用 这 些 封装 好 的 控件 和 组 件 , 即 可 设计 出 如 表格 、 窗 口 .工具 栏 树 结 构 和 菜单 等 丰富 多 彩 的 
应 用 程序 界面 。 
ExtJS 的 表格 控件 可 以 做 到 单 先行、 多 先行、 高 亮 显示 选中 的 行 、 拖 中 改变 列 宽度 、 按 
列 排序 、 自 动 生 成 行 号 、 支 持 checkbox 全 选 、 动 态 选 择 显 示 哪 些 列 、 支 持 本 地 以 及 远程 分 
页 \ 可 以 对 单元 格 按照 自己 的 想法 进行 泻 染 、 添 加 新 行 、 删 除 一 行 或 多 行 和 提示 脏 数 
据 等 。 
基于 ExtJS 的 开发 还 涉及 面板 (Panel)、 布 局 (Layout) 和 组 件 (Component) 等 。 
Ext. form. Field 是 所 有 表单 输入 控件 的 基 类 ,对 于 Ext 的 表单 字段 来 说 , ComboBox、 
DateField TimeField, NumberField 和 DateField 都 是 Ext. form. Field 类 的 子 类 ,在 它 上 面 
定义 了 表单 字段 的 各 种 基本 操作 和 特性 。 在 学 习 使 用 表单 字段 组 件 时 ,一 定 要 重点 研究 
Field 这 个 类 ,掌握 其 主要 方法 .事件 等 ,将 有 助 于 更 好 地 使 用 其 他 的 字段 。 
4. 优势 
富 客户 端 技术 在 增强 良好 交互 体验 的 同时 兼顾 了 Web 应 用 零 部 署 的 优点 。 许 多 
C/S 结构 软件 之 所 以 被 淘汰 ,很 大 程度 上 要 归咎 于 此 结构 下 客户 端 程序 发 布 与 维护 的 复 
杂 性 。 尤 其 是 更 新 版 本 时 ,需要 对 客户 端 程序 进行 逐一 下 载 安 装 和 配置 维护 ,是 一 件 非 
常 繁琐 的 事情 。 这 也 正 是 大 量 软件 用 户 选择 B/S 结构 Web 程序 的 原因 之 一 。 也 正 是 由 
于 富 客户 端 应 用 软件 系统 在 部 署 成 本 上 较为 低廉 ,服务 器 和 带宽 开销 较 小 ,在 偶尔 连接 
服务 器 的 无 线 设 备 上 , 富 客 户 端 优势 尤为 明显 。 与 AJAX 富 客户 端 技 术 相 比 ,Flex 等 富 
客户 端 技术 虽然 有 诸多 优点 ,但 需要 安装 插件 ,而 且 新 技术 的 普及 尚 需 一 段 时 间 。AJAX 
在 现 有 条 件 下 显现 出 巨大 的 价值 ,目前 AJAX 已 经 在 互联 网 行业 得 到 普遍 认可 ,友好 的 用 
户 体验 和 AJAX 技术 的 异步 交互 、 局 部 刷新 等 特性 对 今后 日 益 复 杂 的 企业 应 用 是 不 可 或 
缺 的 。 
AJAX 非常 适用 于 交互 频率 大 、 频 繁 读 取 数 据 的 大 型 的 Web 应 用 软件 。 基 于 AJAX 富 
客户 端 技 术 的 优势 体现 在 以 下 几 个 方面 : 
。 最 大 程度 地 减少 服务 器 资源 消耗 和 降低 网 络 带 宽 流量 的 开销 。AJAX 的 异步 通信 
最 大 限度 地 减少 元 余数 据 的 重复 提交 处 理 . 能 减轻 由 客户 端的 数据 申请 带 来 的 服务 
器 应 答 负 担 ,也 减少 了 网 络 流量 从 而 降低 了 对 网 络 带 宽 的 压力 。 
。 数据 更 新 过 程 对 客户 端 透明 。AJAX 不 需 重新 刷新 整个 页 面 即 可 发 送 异 步 请 求 到 
服务 器 ,减少 了 用 户 等 待 时 间 。 
。 AJAX 富 客户 端 技术 具有 通用 性 。 使 用 AJAX 开发 的 Web 应 用 具有 很 好 的 通用 性 
和 适用 性 是 由 于 AJAX 基于 W3C 标准 被 多 数 浏览 器 所 支持 。 
。 AJAX 设 计 的 界面 友好 。AJAX 的 最 大 优点 之 一 是 可 以 实现 实时 页 面 更 新 。 
AJAX 技术 采用 异步 刷新 机 制 增强 了 系统 的 交互 性 ,缓解 了 服务 器 和 带宽 资源 的 


11.4.2 工具 


Network WorkbenchCNWB) 是 一 个 适用 于 物理 .生物 科学 和 社会 科学 分 析 的 集 网 络 分 
析 、 建 模 和 可 视 化 为 一 体 的 综合 性 网 络 分 析 工 具 。 其 构架 使 用 的 是 CIShell 技术 ,具有 分 布 
式 、 松 耦合 .插件 式 等 优点 。 新 版 本 的 NWB 添加 了 若干 新 的 算法 分 析 文献 数据 ,目前 已 经 
支持 ISl, Scopus 和 Google Scholar 等 数据 格式 CiteSpace 是 用 来 分 析 和 可 视 共 引 网 络 的 
Java 应 用 程序 ,主要 用 于 分 析 知 识 领域 中 的 新 趋势 , 它 使 用 户 可 以 将 某 个 领域 瞬时 “抓拍 ”, 然 
后 将 这 些 抓 拍 的 图 片 连接 起 来 。 如 表 11.4 所 示 为 NWB 和 CiteSpace [的 功能 比较 。 


表 11.4 NWB 和 CiteSpace 开 的 功能 比较 
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可 视 化 工具 Vizster 是 一 款 专 门 用 于 实现 社会 关系 网 络 可 视 化 的 工具 , 它 通 过 对 著名 
的 朋友 关系 网 络 Friendster 进行 可 视 化 实现 了 朋友 关系 的 在 线 探索 。 同 时 它 能 给 终端 用 户 
提供 一 个 清晰 的 网 络 结构 图 。 借 助 可 视 化 图 形 , 可 以 推测 出 社会 网 络 成 员 在 不 远 将 来 的 联 
系 情 况 。 实 验 结果 证 明 ,通过 网 络 可 视 化 得 出 来 的 结果 和 实际 情况 相差 无 几 。 同 样 ,可 视 化 
科研 合作 网 可 使 用 户 根据 搜索 到 的 科研 合作 情况 了 解 和 掌握 各 个 国家 和 地 区 的 科研 重点 和 
趋势 。 此 外 ,根据 网 上 社区 的 个 体 关 系 , 即 时 通信 群体 之 间 的 通信 情况 ,博客 群体 间 的 链接 
结构 ,保险 网 络 中 的 投保 关系 及 代理 关系 ,电子 邮件 之 间 的 接收 、 发 送 次 数 等 各 个 复杂 网 络 
可 视 化 图 ,可 以 从 中 了 解 个 体 的 生活 行为 .心理 和 消费 状况 等 等 。 

通过 对 保险 关系 网 络 的 可 视 化 ,可 以 直观 地 分 析 客 户 的 消费 模式 ,获得 客户 深层 次 的 使 
用 信息 ,结合 客户 基本 属性 分 析 , 可 以 掌握 客户 更 全 面 的 信息 ,用 于 指导 保险 市 场 营销 和 决 
策 , 如 依据 挖掘 得 到 的 具有 商业 决策 价值 的 用 户 行 为 模式 ,制定 合理 的 资费 方式 ,甚至 发 现 
和 分 析 欺 诈 行 为 。 打 击 犯罪 是 可 视 化 技术 的 另 一 重要 应 用 ,通过 可 视 化 社会 关系 网 络 ,能 够 
分 析出 犯罪 模式 和 帮派 活动 ,并 通过 对 犯罪 活动 的 分 布 和 频率 的 分 析 , 主 动 地 抑制 与 打击 犯 
罪 活动 。 

作为 一 项 非常 有 用 的 技术 ,可 视 化 已 经 受到 了 越 来 越 多 的 商业 关注 。ISS 公司 的 
WebTAS 是 一 款 用 来 分 析 大 型 异 构 数据 的 分 析 软 件 ,该 系统 在 传统 数据 挖掘 技术 的 基础 
上 ,加 入 了 链接 分 析 、 地 理 信 息 可 视 化 和 时 间 轴 (timeline) 的 表示 。 来 自 这 公司 的 分 析 者 记 
事 本 (Analyst”Note) 软 件 主要 是 关注 文本 数据 的 人 物 .事件 .机 构 和 银行 账户 之 间 的 联系 ， 
将 这 些 实体 用 图 的 形式 展现 出 来 。 

Oculus Info 公司 开发 了 一 系列 多 角度 分 析 系统 GeoTime, GeoTime 是 一 个 可 视 化 报 
告 数 据 的 软件 ,该 软件 使 用 了 可 交互 的 3D 视图 在 时 间 和 地 理 上 可 视 和 跟踪 事件 .个 体 和 活 
动 。 而 该 公司 的 另 一 款 软件 TRIST system 提供 了 格式 化 、 精 炼 . 组 织 和 查询 大 规模 数据 的 
功能 ,该 软件 使 用 了 多 视图 的 方式 帮助 分 析 人 员 对 搜索 结果 进行 多 角度 分 析 , 包 括 聚 类 、 趋 
势 分 析 和 比较 等 功能 。TRIST 的 检索 结果 可 以 导入 到 该 公司 的 另 一 款 产品 SANDBOX 继 
续 进 行 分 析 , 该 软件 可 以 帮助 用 户 排 序 、 组 织 和 分 析 大 规模 数据 ,与 上 一 款 软 件 的 目标 不 同 ， 
这 款 软件 更 加 注重 使 用 计算 机 语言 和 分 析 功 能 加 强 用 户 的 视觉 效果 ,使 用 户 进行 更 深层 次 
的 思考 。 该 系统 可 以 使 用 交互 式 的 可 视 化 分 析 技 术 提 供 放 置 移动 和 分 组 信息 的 功能 。 

GTD 数据 包含 从 1970—1997 年 美国 所 有 经 历 过 的 恐怖 主义 行动 。 利 用 该 数据 ,美国 
可 视 分 析 实 验 室 西南 中 心 开 发 了 一 个 针对 恺 怖 主义 行动 的 5W(CWho, What, Where, When, 
and Why) 的 可 视 分 析 系 统 , 旨 在 发 现 和 揭示 慌 怖 主义 内 在 的 模式 和 关系 。 该 系统 的 功能 主 
要 包括 提供 5W 的 交互 式 可 视 分 析 ; 支持 高 层次 的 策略 分 析 和 单个 事件 的 战术 分 析 ; 方便 
研究 人 员 的 研究 结果 和 假设 的 交互 。 

Jigsaw 是 一 个 分 析 文本 中 蕴涵 的 大 量 实体 和 实体 之 间 关 系 的 工具 。 可 以 帮助 分 析 人 
员 更 好 地 评估 、 分 析 和 利用 收集 到 的 文件 。 其 主要 目标 是 帮助 分 析 人 员 高 效 而 准确 地 理解 
大 量 文本 报道 里 包含 的 信息 。Jigsaw 提供 了 多 种 角度 可 视 分析 文 档 的 功能 ,从 中 识别 重要 
的 实体 (例如 和 人物、 地 上 点、 组织 等 ) 和 它们 之 间 的 关联 。 系 统 提供 了 多 种 视图 供 使 用 者 分 析 ， 
包括 直方 图 视图 日历 视图 、 散 点 图 视图 和 表格 视图 等 。 用户 还 可 以 查看 经 过 高 亮 标 识 的 文 
档 和 文档 集合 。 总 之 ,Jigsaw 就 像 一 位 可 视 化 的 引导 者 ,引导 分 析 人 员 找 到 所 需 的 特定 
文档 。 


VADL 是 美国 佐治 亚 理工 学 院 花 费 三 年 时 间 建 立 的 一 个 数字 图 书馆 ,该 图 书馆 搜集 了 
关于 可 视 化 方面 的 课件 .资料 和 文档 ,可 以 帮助 教师 开展 可 视 分 析 的 课程 以 及 帮助 学 生 更 好 
地 提升 他 们 使 用 和 开发 可 视 分 析 工 具 的 能 力 。 该 系统 使 用 ResualsMaps 技术 将 搜索 获取 
的 信息 更 加 友好 地 展示 出 来 ,使 用 户 对 搜索 结果 有 了 更 加 深入 的 了 解 。 搜 索 结 果 按照 类 型 
放 在 不 同 区 域 。 每 个 结果 用 一 个 结 点 表示 ,不 同类 型 的 结果 用 不 同 颜色 的 结 点 表示 。 单 击 
结 点 可 以 使 焦点 移动 到 相应 的 结果 上 o 

银行 系统 每 天 产生 的 大 量 电汇 记录 增加 了 分 析 电 汇 模式 、 反 欺诈 和 反 黑 钱 行为 的 难度 ， 
而 且 其 诈 行为 随 着 时 间 在 不 断 变 化 ,依靠 传统 分 析 电 汇 模 式 来 挖掘 欺诈 行为 已 经 不 再 有 效 。 
为 此 , WireVis 系统 提供 了 基于 关键 字 的 协同 分 析 。 不 同 的 视图 展示 了 随 着 时 间 的 变化 关 
键 字 和 账户 的 关系 。 该 系统 还 提供 了 查询 与 用 户 提供 的 例子 相同 的 模式 的 电汇 记录 。 利 用 
该 系统 ,分 析 人 员 可 以 发 现行 为 可 疑 的 交易 。 


11.5 知识 管理 


11.5.1 概述 


当 智能 的 人 类 与 知识 共同 出 现在 这 个 世界 时 ,一 种 对 于 知识 的 操作 就 此 产生 , 即 知识 的 
管理 与 共享 。 知 识 管理 与 共享 是 人 类 社会 进步 和 文明 传承 发 展 的 必要 条 件 。 通 过 知识 获 
得 .交流 和 共享 ,可 使 人 类 在 知识 的 获取 过 程 中 ,避免 重复 工作 和 相同 的 错误 。 即 使 在 现代 
知识 型 组 织 中 ,关于 如 何 可 以 达到 期 望 结果 和 避免 犯错 误 的 最 重要 的 思想 和 理论 主要 是 存 
储 在 人 们 的 大 脑 中 ,而 不 是 在 计算 机 或 书籍 中 。 

伴随 知识 经 济 的 萌芽 ,知识 管理 备 受 关注 。 但 是 ,就 像 人 们 对 知识 有 不 同 的 理解 一 样 ， 
以 知识 和 人 为 管理 对 象 的 知识 管理 ,目前 也 没有 一 个 广泛 认同 的 定义 。 

按照 美国 戴尔 集团 创始 人 之 一 卡尔 。 弗 拉 保 罗 的 说 法 ,知识 管理 就 是 运用 集体 的 智慧 
提高 应 变 和 创新 能 力 ”, 是 为 企业 实现 显 性 知识 和 隐 性 知识 共享 提供 的 新 途径 。 

美国 “知识 的 进化 ”作者 Verna Allee 对 知识 管理 的 定义 是 “帮助 人 们 对 拥有 的 知识 进 
行 反思 ,帮助 发 展 支持 人 们 进行 知识 交流 的 技术 和 企业 内 部 结构 ,并 帮助 人 们 获得 知识 来 
源 , 促 使 他 们 之 间 进 行 知识 的 交流 。” 

Daniel E. O'Leary 认为 “知识 管理 是 将 组 织 可 得 到 的 各 种 来 源 的 信息 转化 为 知识 ,并 将 
知识 与 人 联系 起 来 的 过 程 。 知 识 管理 是 对 知识 进行 正式 的 管理 ,以 便于 知识 的 产生 ,获取 和 
重新 利用 ”"。 这 种 解释 着 重 阐明 信息 、 知 识 和 人 在 知识 管理 过 程 中 的 不 同 角色 。 

Wiig 指出 知识 管理 主要 涉及 四 个 方面 : 自 上 而 下 检测 和 推动 与 知识 有 关 的 活动 ,创造 
和 维护 知识 基础 设施 ,更 新 组 织 和 转换 知识 资产 ,使 用 知识 以 提高 其 价值 。 

知识 管理 的 目标 主要 包括 六 个 方面 : 

CD 知识 的 发 布 ,以 使 一 个 组 织 内 的 所 有 成 员 都 能 应 用 知识 。 

(2) 确保 知识 在 需要 时 是 可 得 的 。 

(3) 推进 新 知识 的 有 效 开发 。 

(4) 支持 从 外 部 获取 知识 。 

(5) 确保 知识 新 知识 在 组 织 的 扩散 。 
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(6) 确保 组 织 内 部 的 人 知道 所 需 的 知识 在 何 处 。 

尽管 上 述 定义 对 知识 管理 的 理解 不 尽 相 同 ,但 都 隐 含 了 知识 管理 的 三 个 基本 要 素 , 即 知 
识 生产 过 程 管理 ,知识 传播 过 程 管 理 和 知识 使 用 过 程 管理 。 因 此 ,知识 管理 是 对 知识 的 生 
产 , 传 播 和 使 用 的 全 程 监控 。 它 以 信息 技术 为 基础 ,为 知识 的 生产 ,传播 和 使 用 提供 开放 的 
可 管理 的 协同 工作 机 制 。 

21 世纪 是 知识 经 济 的 时 代 , 今 天 知识 已 成 为 企业 重要 的 生产 要 素 。 企 业 需 要 把 专门 知 
识 融 入 组 织 流 程 和 日 常 工 作 中 。 知 识 经 济 时 代 , 知 识 资本 成 为 企业 的 核心 竞争 力 。 

早 在 1959 年 ,管理 学 家 彼得 . 德 鲁 克 在 《明日 的 里 程 碑 ) 一 书 中 提出 了 “知识 工作 者 ”的 
概念 。1962 年 ,美国 经 济 学 家 弗 里 茨 。 马 克 卢 普 提出 了 ”知识 产业 ”的 概念 ,认为 “知识 产 
业 ” 主 要 包括 教育 研究 与 开发 ,传播 业 、 信 息 设施 业 和 信息 服务 业 。 

20 世纪 70 年 代 至 80 年 代 , 开 始 出 现 一 些 超 文 本 / 群 件 应 用 系统 ,依赖 人 工 智 能 和 专家 
系统 的 知识 管理 系统 (Knowledge Management System, KMS), 以 及 诸如 “知识 获取 ”“ 知 
识 工 程 ”“ 以 知识 为 基础 的 系统 ”和 “基于 计算 机 的 存在 论 " 等 观点 。 

20 世纪 80 年 代 , 尽 管 古典 经 济 学 理论 忽视 了 知识 作为 资产 的 价值 ,而 且 多 数组 织 缺 乏 
管理 知识 的 战略 和 方法 ,知识 (以 及 以 它 为 基础 体现 的 专业 能 力 ) 作 为 竞争 性 资产 的 重要 性 
已 经 明确 。 一 个 美国 企业 社团 启动 了 “管理 知识 资产 ”的 项 目 ; 有 关 知 识 管理 的 论文 开始 在 
《斯 隆 管理 评论 》《 组 织 科学 》《 哈 佛 商 业 评 论 ) 以 及 其 他 刊物 上 出 现 , 关 于 组 织 学 习 和 知识 
管理 的 第 一 批 专著 也 开始 出 版 ,如 彼得 。 圣 吉 的 《第 五 项 修炼 ?和 Sakaiya 的 《知识 价值 的 革 
命 》, 国 际 知识 管理 网 络 (International Knowledge Management Network) 在 欧洲 创办 。 

1990 年 ,许多 管理 咨询 公司 开始 实施 企业 内 部 的 知识 管理 项 目 , 而 且 一 些 著 名 的 美国 、 
欧洲 和 日 本 企业 建立 了 重点 知识 管理 项 目 ; 1994 年 ,IKMN 又 吸收 了 位 于 美国 的 “知识 管 
理论 坛 " 和 其 他 与 知识 管理 相关 的 团体 和 出 版 物 ,公布 了 对 欧洲 企业 开展 的 知识 管理 调查 的 
结果 。2000 年 ,国际 商业 和 金融 界 发 起 倡议 和 批准 ,2000 年 被 确认 为 知识 管理 年 。 

但 是 ,知识 管理 与 信息 技术 产生 密切 关系 是 在 全 球 互联 网 (World Wide Web) 诞 生 之 
后 ,信息 以 前 所 未 有 的 速度 ,广度 和 数量 进行 传播 ,知识 的 淘汰 速度 越 来 越 快 。 信 息 技术 在 
为 人 们 提供 海量 数据 资源 的 同时 ,也 带 来 了 数据 资源 处 理 不 当 和 “信息 超载 "等 问题 。 这 种 
“数据 爆炸 ,信息 贫乏 ”的 现象 ,使 人 们 关注 的 目光 再 次 投向 知识 管理 。 

融合 了 IT 技术 的 知识 管理 经 历 了 三 个 阶段 : 第 一 阶段 是 围绕 着 让 正确 的 知识 和 信息 
在 正确 的 时 候 送 到 正确 的 人 这 样 一 个 目标 ,以 IT 技术 为 基础 建立 企业 知识 管理 系统 的 阶 
Br. 第 二 阶段 则 围绕 着 挖掘 员工 隐 性 知识 的 目标 ,事后 评价 、 黄 页 、 知 识 地 图 等 方法 和 工具 
的 应 用 是 该 阶段 的 主要 特征 ; 第 三 阶段 的 标志 是 社会 网 络 分 析 (Social Network Analysis. 
SNA) 方 法 和 工具 的 应 用 与 推广 。 

1. 知识 

知识 ,作为 一 个 被 广泛 使 用 的 词 ,其 内 涵 和 外 延 因 使 用 者 不 同 而 异 。 一 般 可 区 分 为 狭义 
和 广义 两 种 概念 。 根 据 韦 伯 斯 特 (Webster) 词 典 1997 年 的 定义 ,知识 是 通过 实践 、 人 研究 、 
联系 或 调查 获得 的 关于 事物 的 事实 和 状态 的 认识 ,是 对 科学 、 艺 术 或 技术 的 理解 ,是 人 类 
获得 的 关于 真理 和 原理 的 认识 的 总 和 。 总 之 ,知识 是 人 类 积累 的 关于 自然 和 社会 的 认识 
和 经 验 的 总 和 。 这 就 是 广义 的 知识 概念 。 经 济 合作 与 发 展 组 织 (Organization of Economic 
Cooperation and Development. OECD) ,为 了 有 利于 经 济 分 析 , 将 广义 的 知识 按 内 容 分 为 如 


下 四 种 : 

(1) 关于 “知道 是 什么 ”的 知识 ,记载 事实 的 数据 。 

(2) 关于 “知道 为 什么 ”的 知识 ,记载 自然 和 社会 的 原理 与 规律 方面 的 理论 。 

(3) 关于 “知道 怎样 做 ”的 知识 , 指 某 类 工作 的 实际 技巧 和 经 验 。 

(4) 关于 “知道 是 谁 ” 的 知识 , 指 谁 知道 是 什么 , 谁 知道 为 什么 和 谁 知道 怎么 做 的 信息 。 

从 知识 共享 的 角度 ,可 将 知识 分 为 两 类 : 显 性 知识 和 隐 性 知识 。 

所 谓 显 性 知识 ,又 称 “ 可 编码 知识 ”(Encodified knowledge) 或 言传 性 知识 , 指 能 以 一 种 
系统 规范 化 的 方式 表示 要 传达 的 知识 ,这 类 知识 通常 是 以 编码 化 和 成 文 的 方式 进行 传递 和 
保存 。 显 性 知识 的 特点 是 可 表达 性 ,可 确 知 性 ,有 物质 载体 。 在 DECD 对 知识 的 四 类 划分 
中 ,关于 Know-what 和 Know-why 的 知识 基本 属于 显 性 知识 。 

所 谓 隐 性 知识 ,又 称 * 隐 含 经 验 类 知识 ”(Tacit knowledge) 或 意 会 性 知识 ,往往 是 个 人 
或 团体 组 织 经 长 期 积累 而 拥有 的 知识 , 指 具 有 个 性 化 、 难 以 形式 化 、 难 以 与 他 人 共享 的 知识 ， 
来 自 个 人 的 经 验 、 直 觉 和 洞察 力 , 隐 性 知识 所 对 应 的 是 DECD 分 类 中 关于 Know-how 和 
Know-who 的 知识 。 

显 性 知识 和 隐 性 知识 的 划分 突破 了 过 去 人 们 对 知识 的 认识 ,将 未 经 系统 化 处 理 的 经 验 
类 知识 给 予 了 重视 和 承认 。 知 识 管理 中 的 一 个 重要 观点 ,就 是 富有 个 性 化 的 隐 性 知识 更 具 
有 创新 性 ,能 创造 价值 ,应 充分 挖掘 和 利用 隐 性 知识 。 

2. 知识 管理 

对 知识 管理 的 含义 ,至 今 还 没有 一 个 统一 的 说 法 。 比 较 有 代表 性 的 如 下 : 

卡尔 。 费 拉 保 罗 认 为 “知识 管理 就 是 运用 集体 的 智慧 提高 应 变 能 力 和 创新 能 力 , 是 为 企 
业 实 现 显 性 知识 和 隐 性 知识 共享 提供 的 新 途径 >”。 马 斯 (Masie) 认 为 ,知识 管理 是 一 个 系统 
地 发 现 . 选 择 、 组 织 `. 过滤 和 表述 信息 的 过 程 ,目的 是 改善 雇员 对 待 特定 问题 的 理解 。 
UanLel L. ULeary 认为 “知识 管理 是 将 组 织 可 得 到 各 种 来 源 的 信息 转化 为 知识 ,将 知识 与 
人 联系 起 来 的 过 程 。 知 识 管理 是 对 知识 进行 正式 的 管理 ,以 便于 知识 的 产生 、 获 取 和 重新 
利用 ”。 

上 海 师 范 大 学 的 黎 加 厚 教授 从 社会 和 教育 信息 化 发 展 的 角度 提出 知识 管理 是 研究 人 类 
获取 、 传 播 .共享 .利用 和 创新 知识 的 活动 规律 ,管理 有 关 知 识 的 各 种 连续 过 程 ,以 促进 经 济 
和 社会 发 展 的 理论 与 实践 。 各 种 不 同 的 见解 都 反映 出 知识 管理 具有 以 下 特征 : 

。 强调 信息 向 知识 价值 增值 过 程 。 

。 既 重 视 知识 增值 的 技术 实现 手段 ,又 关注 人 的 信息 习惯 与 素养 。 

。 承认 知识 管理 不 同 于 信息 管理 ,也 不 同 于 人 力 资源 管理 ,三 者 之 间 又 互相 联系 。 

。 知识 管理 必须 建立 在 信息 技术 基础 上 。 

3. 知识 管理 的 目的 

知识 管理 能 够 整合 组 织 的 知识 资源 ,将 个 人 知识 提升 为 组 织 知 识 。 按 照 组 织 的 实际 需 
求 ,对 组 织 知 识 进 行 分 类 和 有 序 化 处 理 , 且 根据 知识 之 间 的 相互 关系 进行 组 织 、 存 取 , 便 于 知 
识 积累 和 共享 ,解决 知识 “ 找 不 到 ”的 问题 。 以 组 织 知识 库 为 基础 ,新 组 织 成 员 能 很 快 地 熟悉 
前 人 的 工作 环境 ,学 习 其 他 成 员 的 经 验 , 进 而 减少 因 成 员 流动 带 来 的 知识 流失 ,增加 组 织 知 
识 储备 ,方便 组 织 的 后 继 者 轻松 获取 前 人 积累 的 知识 。 

知识 管理 在 实现 内 部 资源 有 序 化 的 基础 上 ,能 够 提高 对 外 反应 速度 ,这 种 快速 反应 表现 
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tn 与 组 织 之 间 。 
管理 有 助 于 组 织 从 现 有 数据 中 挖掘 有 用 知识 、 增 强 组 织 智能 。 信 息 化 的 推进 让 组 
i a 
识 , 就 意味 着 组 织 开始 向 知识 管理 迈进 。 
知识 管理 有 助 于 发 现 和 培育 新 的 想法 和 思维 。 对 于 许多 组 织 而 言 ,一 个 很 重要 的 问题 
就 是 如 何 使 组 织 成 员 一 起 跨越 时 间 和 地 理 的 界限 .献计 献策 ,交流 思想 ,共同 创造 新 的 思维 。 
组 织 通 过 知识 管理 把 成 员 聚 集 到 “真正 的 ”知识 共享 流程 中 ,充分 利用 人 们 头脑 中 的 创造 性 
思维 ,产生 新 技术 和 新 服务 的 创新 思维 。 


11.5.2 模型 和 技术 


知识 的 动态 转化 模型 一 一 SECI 模型 
显 性 知识 与 隐 性 知识 不 是 静止 不 变 的 ,在 知识 管理 中 可 以 相互 转化 ,是 一 个 动态 循环 的 
过 程 , 意 会 性 知识 与 言传 性 知识 之 间 的 转化 过 程 可 用 SECI 模型 表示 一 一 S 指 的 是 社会 化 
(Socialization) , 即 通过 共享 经 验 产生 新 的 意 会 性 知识 的 过 程 ; E 指 的 是 外 化 (Externalization)， 
即 把 意 会 性 知识 表达 出 来 成 为 言传 性 知识 的 过 程 ; C 指 的 是 组 合 (Combination), 即 言传 性 
知识 组 合 形成 更 复杂 更 系统 的 言传 性 知识 体系 的 过 程 ; 1 指 的 是 内 化 (Internalization), 即 
把 言传 性 知识 转变 为 意 会 性 知识 ,成 为 个 人 与 团体 的 实际 能 力 的 过 程 ,如 图 11. 8 所 示 。 


意 会 性 知识 意 会 性 知识 
意 会 性 知识 社会 化 © 外 化 言传 性 知识 
意 会 性 知识 内 化 组 合 言传 性 知识 
言传 性 知识 言传 性 知识 


图 11.8 SECI 模 型 示意 图 


SECI 模型 描述 了 意 会 性 知识 与 言传 性 知识 的 转化 与 创造 的 一 个 螺旋 模型 ,图 11. 8 中 
间 的 螺旋 线 表 示 在 SECI 过 程 中 知识 的 增长 过 程 。 

知识 管理 的 核心 是 对 知识 的 挖掘 ` 组 织 管理 与 利用 ; 通过 知识 管理 技术 ,促进 隐 性 知识 
向 显 性 知识 转化 ,挖掘 存在 于 个 人 或 企业 组 织 中 的 富有 个 性 化 .创造 性 ,有 价值 的 隐 性 知识 ， 
促进 知识 的 交流 ,实现 知识 的 最 大 化 共享 。 知 识 管理 是 综合 利用 管理 方法 与 信息 技术 工具 
对 知识 与 知识 过 程 进行 管理 ,以 促进 知识 的 创新 .存储 .共享 与 有 效 利 用 ,提高 创造 与 利用 知 
识 的 能 力 ,提高 企业 或 个 人 自身 的 价值 与 竞争 力 。 

对 知识 的 管理 应 包含 知识 内 容 ( 知 识 资源 ) 的 管理 与 知识 过 程 的 管理 两 个 方面 ,而 两 者 
相互 促进 ,密切 联系 在 一 起 。 知 识 过 程 分 为 : 知识 组 织 / 存 储 、 知 识 创造 、 知 识 传输 /共享 以 
及 知识 运用 四 个 基本 环节 。 知 识 管理 以 知识 内 容 管 理 为 基础 ,通过 知识 过 程 管 理 使 知识 内 
容 资 源 不 断 更 新 与 扩充 。 

2. 知识 管理 策略 

根据 知识 的 不 同 特点 ,知识 管理 策略 可 分 为 显 性 策略 和 隐 性 策略 ,分别 对 应 于 显 性 知识 
和 隐 性 知识 的 管理 。 


显 性 策略 与 隐 性 策略 的 主要 区 别 在 于 : 显 性 知识 的 管理 策略 侧重 于 知识 的 再 利用 ; 隐 
性 知识 的 管理 策略 侧重 于 知识 的 挖掘 以 及 人 与 人 之 间 的 交流 。 在 知识 管理 过 程 中 显 性 策略 
与 隐 性 策略 常 结合 在 一 起 。 

用 显 性 策略 对 显 性 知识 的 管理 策略 为 : 对 于 可 以 整理 和 储存 的 显 性 知识 ,经 过 描述 .加 
工 \ 整 理 , 并 与 相关 的 其 他 知识 建立 联系 ,对 知识 归纳 分 类 后 ,纳入 知识 库 中 ,以 进行 交流 和 
共享 ,通过 对 知识 的 再 利用 ,使 现 有 知识 为 企业 集体 或 个 人 创造 价值 ,并 创造 出 新 的 知识 ,为 
整个 知识 管理 循环 提供 动力 。 

用 隐 性 策略 管理 隐 性 知识 的 策略 为 : 让 知识 需要 者 与 知识 拥有 者 通过 各 种 方式 与 形式 
进行 直接 或 间接 接触 ,通过 交流 与 共享 ,挖掘 隐 性 知识 ,将 发 现 的 具有 创造 性 的 ,有 价值 的 信 
息 进行 编码 ,促进 隐 性 知识 向 显 性 知识 转化 ,把 有 价值 的 隐 性 知识 外 化 后 纳入 知识 库 , 通 过 
对 隐 性 知识 进行 管理 ,促进 新 知识 的 创造 。 知 识 管理 实施 的 结果 构成 循环 动态 流动 的 知识 
PE ,知识 管理 需要 一 个 用 来 获得 知识 信息 和 经 验 的 外 部 知识 库 , 以 及 一 套 对 知识 进行 过 滤 、 
组 织 管理 的 方法 ,以 及 进行 广泛 传播 管理 的 工具 。 

3. 知识 管理 技术 

对 于 知识 管理 而 言 ,技术 虽然 只 是 知识 管理 实施 过 程 的 一 环 , 但 却 是 使 知识 管理 得 以 具 
体 实现 的 主要 工具 。 用 一 句 通俗 的 话说 ,就 是 * 有 了 技术 不 是 万 能 的 ,但 没有 技术 却 是 万 万 
不 能 的 "。 从 技术 角度 来 看 ,知识 管理 就 是 要 通过 科技 的 辅助 将 正确 的 知识 在 正确 的 时 间 传 
给 正确 的 人 。 知 识 管理 的 各 种 功能 及 服务 最 终 都 还 得 依靠 知识 管理 技术 来 实现 ,如 搜索 引 
擎 服务 就 离 不 开 搜 索引 擎 技术 、 知 识 生产 服务 也 需要 内 容 管 理 技术 的 支撑 。 可 以 说 ,没有 强 
大 的 知识 管理 技术 支持 ,企业 将 很 难 有 效 实施 知识 管理 , 它 是 构建 知识 管理 系统 的 基础 ,也 
是 实现 知识 管理 的 强大 推动 力 。 

从 广义 的 角度 看 ,知识 管理 技术 并 不 局 限于 基于 计算 机 的 技术 ,其 他 如 编辑 出 版 技术 、 
发 行 技 术 等 均 是 企业 进行 内 部 知识 传播 的 传统 技术 ,并 持续 发 挥 着 重要 作用 。 但 现代 信息 
技术 才 是 知识 管理 产生 的 真正 催化 剂 ,也 是 知识 管理 得 以 有 效 实现 的 基本 前 提 。 因 此 这 里 
仅 将 知识 管理 技术 定位 为 基于 计算 机 的 现代 信息 技术 。 

说 到 知识 管理 技术 ,就 不 可 避免 地 要 将 其 与 传统 的 数据 管理 及 信息 管理 技术 进行 比较 。 

数据 管理 技术 是 指 那些 能 够 协助 人 们 生成 .检索 和 分 析 数 据 的 技术 ,以 数据 为 管理 对 
象 ,通常 处 理事 实 、 图 形 等 原始 资料 ,典型 的 数据 管理 技术 包括 数据 仓库 数据 搜索 引擎 和 数 
据 建 模 工具 等 。 而 信息 管理 技术 是 指 能 协助 人 们 更 好 地 处 理 信息 的 技术 ,以 信息 为 处 理 对 
象 ,如 自动 化 信息 检索 与 查询 系统 、 决 策 支 持 系 统 、 经 营 信 息 系统 、 文 档 管 理 技术 等 。 无 论 数 
据 管 理 技术 还 是 信息 管理 技术 ,其 处 理 对 象 大 都 是 显 性 的 ,对 隐 性 的 知识 基本 无 能 为 力 ,无 
法 把 握 知 识 的 丰富 性 和 知识 背景 的 复杂 性 ,也 难以 有 效 支 撑 知 识 管理 所 强调 的 知识 分 享 和 
协作 功能 。 

虽然 ,知识 管理 技术 和 数据 管理 及 信息 管理 技术 有 着 区 别 , 但 需要 强调 的 是 ,知识 管 
理 技术 并 不 排斥 数据 管理 及 信息 管理 技术 ,反而 是 建立 在 数据 管理 及 信息 管理 技术 的 基 
础 之 上 ,针对 知识 特性 而 开发 的 、 能 够 协助 知识 工作 者 进行 知识 生产 、 分 享 、 应 用 以 及 创 
新 的 技术 ,是 现代 信息 技术 在 知识 经 济 时 代 的 新 发 展 。 传 统 的 数据 管理 及 信息 管理 技术 
仍然 会 在 知识 管理 中 得 到 进一步 的 广泛 应 用 ,成 为 整个 知识 管理 技术 体系 中 的 重要 组 成 
部 分 。 


原理 及 应 用 (第 二 版 ) 


340 


3X FE ,就 可 以 给 出 知识 管理 技术 的 基本 定义 。 知 识 管理 技术 就 是 指 能 够 协助 人 们 生产 、 
分 享 .应 用 以 及 创新 知识 的 基于 计算 机 的 现代 信息 技术 。 从 知识 管理 技术 的 定义 来 看 ,知识 
管理 技术 并 不 是 一 项 技术 ,而 是 一 个 技术 体系 ,包括 的 技术 内 容 异 常 繁多 ,覆盖 了 知识 生产 、 
分 享 .应 用 以 及 创新 的 各 个 环节 。 它 同时 又 是 多 种 信息 技术 的 集成 ,这 些 技术 结合 起 来 形成 
了 整体 的 知识 管理 系统 ,为 企业 提供 知识 管理 服务 。 

知识 管理 实现 有 两 个 基本 目标 : 一 是 已 有 知识 的 共享 与 重用 ; 二 是 创造 新 知识 。 这 是 
跨越 某 一 时 段 的 实践 过 程 ,与 人 、 商 业 应 用 和 信息 技术 密 不 可 分 。 

知识 管理 包括 以 下 方面 : 

。 知识 聚集 一 一 包括 已 有 知识 的 集成 和 新 知识 的 获取 。 知 识 聚 集 又 称 为 知识 生产 。 

。 知识 组 织 和 存储 一 一 给 获得 的 知识 赋予 一 种 结构 并 合理 地 存储 ,以 便 有 效 管理 和 

使 用 。 
。 知识 演变 一 一 由 于 知识 聚集 过 程 中 发 生 的 偏差 ,以 及 知识 的 时 变性 ,需要 更 正 、 更 
新 、 删 除 旧 知 识 , 增 加 新 知识 。 

。 知识 传播 一 一 使 需要 知识 的 任何 个 人 和 组 织 可 以 在 任何 时 间 、 任 何 地 点 获得 知识 。 

。 知识 使 用 一 一 在 知识 处 理 系统 之 间 和 相关 人 员 之 间 实 现 知识 共享 和 重用 。 

知识 管理 离 不 开 知 识 管理 系统 的 支撑 。 知 识 管理 系统 不 是 一 个 单纯 的 知识 发 布 系统 ， 
而 是 一 个 交互 式 的 开放 的 协同 工作 环境 。 知 识 管理 涉及 许多 核心 技术 ,主要 包括 : 

(1) 信息 技术 

与 互联 网 、 电 话 网 和 电视 网 等 相关 的 信息 技术 主要 用 于 解决 知识 的 快速 高效 、 实 时 和 
准确 传输 ,是 知识 传播 的 基础 设施 。 知 识 传 播 是 集 语言 文字、 图像 和 声音 于 一 体 的 多 媒体 
传输 ,信息 技术 的 快速 发 展 为 这 种 多 媒体 的 快速 .实时 和 准确 传输 创造 了 条 件 。 

(2) Web 技术 

目前 ,Web 技术 及 其 多 层 体系 结构 是 知识 管理 系统 普遍 采用 的 技术 。Web 技术 主要 涉 
及 到 两 类 标准 : 一 个 是 应 用 层 协 议 , 如 超 文本 传送 协议 (HTTP); 另 一 个 是 表示 层 句法 , 包 
括 超 文本 标记 (HTML) 和 扩展 标记 语言 (XML)。 此 外 ,动态 页 面 技 术 可 以 使 得 用 户 能 够 访 
问 存储 在 Web 中 的 实时 数据 。 

(3) 知识 存储 技术 

知识 管理 需要 管理 的 知识 量 非常 大 ,这 些 知识 需要 有 效 地 组 织 和 存储 。 为 了 使 知识 能 
够 更 好 地 共享 和 重用 ,知识 和 知识 处 理 系统 应 该 分 离 , 知 识 应 该 独立 于 知识 处 理 系 统 。 而 
且 , 知 识 通常 是 比较 稳定 的 ,更 新 的 速度 较 慢 。 因 此 ,知识 库 的 知识 时 限 达到 几 年 甚至 几 十 
年 。 并 且 , 知 识 库 面 对 的 主要 问题 不 是 查询 ,而 是 知识 的 分 析 和 处 理 。 所 以 ,与 事务 数据 库 
相 比 ,数据 仓库 更 适合 用 来 存储 知识 。 

另外 , 越 来 越 多 的 知识 以 HTML 和 XML 文件 的 形式 存储 在 Web 服务 器 中 ,这 给 知识 
存储 提供 了 新 途径 。 

(4) 知识 获取 技术 

Feigenbaum 曾 说 知识 获取 是 人 工 智能 中 最 重要 的 核心 问题 ,是 人 工 智能 研究 的 关键 。 
知识 获取 是 指 从 纷繁 的 信息 中 发 现 、 提 取 和 挖掘 知识 。 知 识 获取 可 以 分 为 人 工 获 取 、 机 器 辅 
助 的 人 工 获 取 和 机 器 自动 获取 三 种 类 型 。 就 目前 的 技术 发 展 而 言 ,机 器 辅助 的 人 工 获取 既 
能 保证 一 定 的 精度 ,又 能 确保 较 高 的 效率 ,而 知识 的 机 器 自动 获取 是 人 工 智 能 追求 的 目标 。 


机 器 学 习 是 机 器 获取 知识 的 主要 方法 ,而 数据 挖掘 和 Web 挖掘 是 机 器 学 习 的 重要 研究 
方向 。 

(5) 知识 表示 与 本 体 

知识 是 知识 管理 的 管理 对 象 之 一 ,是 人 类 认识 客观 世界 的 创造 性 成 果 。 在 人 类 思维 活 
动 中 ,认识 加 工 和 处 理 知识 的 主体 , 供 人 类 学 习 使 用 。 因 此 ,知识 构成 人 类 思维 活动 的 环境 ， 
是 人 类 创造 性 工作 的 基石 。 

机 器 要 加 工 和 处 理 知 识 首先 必须 拥有 知识 ,因此 ,一 个 关键 问题 是 机 器 如 何 表示 知识 。 
就 好 像 人 类 创造 了 语言 文字 ,使 知识 可 以 保存 记录 下 来 ,这 些 知识 既是 人 类 创造 的 成 果 , 又 
是 后 人 学 习 和 再 创造 的 基础 ,知识 表示 就 是 机 器 描述 知识 的 语言 和 文字 。 

构建 智能 系统 的 一 个 新 方法 是 聚集 可 重用 构件 。 今 天 建造 基于 知识 的 系统 通常 必须 从 
头 开始 建立 知识 库 , 其 实 可 以 通过 聚集 可 重用 构件 完成 。 系 统 开发 人 员 只 需 创建 与 其 系统 
任务 相关 的 特定 知识 和 推理 机 。 新 的 系统 将 和 已 有 系统 进行 互 操作 ,利用 它们 执行 某 些 推 
理 。 通 过 这 种 方式 ,知识 、 问 题 求解 和 推理 服务 可 以 在 系统 之 间 共 享 。 这 种 方法 有 利于 廉价 
地 建立 更 大 和 更 好 的 系统 。 然 而 ,时 至 今日 ,这 一 设想 还 远 未 实现 ,其 中 一 个 重要 原因 就 是 
知识 不 能 共享 与 重用 。 

Angus 等 指出 目前 的 知识 管理 不 能 重用 从 经 历 中 获得 的 知识 ,因为 它 不 以 一 种 形式 化 
的 方式 共享 。 知 识 的 共享 与 重用 是 知识 管理 的 实现 目标 之 一 。 可 见 ,知识 共享 与 重用 不 仅 
是 构建 智能 系统 的 普遍 性 问题 ,更 是 知识 管理 面临 的 严峻 挑战 。 知 识 共享 与 重用 需要 一 种 
形式 化 的 共享 的 知识 表示 规范 ,尤其 是 现在 的 知识 管理 系统 乃至 智能 系统 都 是 分 布 式 系统 ， 
集中 式 知 识 表 示 已 经 不 能 满足 应 用 的 需要 ,必须 研究 知识 的 分 布 式 表示 方法 。 知 识 表 示 的 
基础 是 本 体 (Ontology) , 它 是 共享 知识 表示 的 关键 。 

为 什么 说 本 体 是 共享 知识 表示 的 关键 呢 ? 原因 在 于 : 首先 ,本 体 曾 述 了 知识 的 结构 。 
给 定 一 个 领域 ,其 本 体 构成 了 面向 这 一 领域 的 知识 表示 系统 的 核心 。 没 有 知识 之 下 的 本 体 
或 领域 概念 化 ,就 没有 一 个 表示 知识 的 词汇 。 其 次 ,本 体 使 知识 共享 成 为 可 能 。 假 设 我 们 作 
了 一 个 分 析 , 得 到 某 一 知识 领域 的 一 个 满意 的 概念 化 集合 的 代表 项 。 为 了 建立 知识 表示 请 
言 , 我 们 在 项 与 本 体 中 的 概念 和 关系 之 间 建 立 联系 ,设计 用 概念 和 关系 编码 知识 的 语法 。 因 
为 有 了 本 体 ,就 不 必 重 复 知识 分 析 过 程 ,而 可 以 与 他 人 共享 这 一 知识 表示 请 言 。 共 享 本 体形 
成 了 领域 相关 的 知识 表示 语言 的 基础 。 基 于 本 体 构造 的 知识 表示 语言 是 内 容 丰 富 的 (或 语 
CE SO ,它们 有 大 量 包 含 复杂 领域 内 容 的 项 ,这 类 共享 将 大 大 增加 知识 重用 的 潜力 。 

建立 可 以 共享 与 重用 的 领域 本 体 不 仅 是 知识 表示 的 需要 ,也 是 实现 知识 共享 和 重用 的 
关键 ,是 实施 知识 管理 的 一 项 基础 工作 。 


11.5.3 ”知识 管理 系统 


1. 知识 管理 系统 

目前 关于 知识 管理 系统 的 定义 还 很 不 统一 ,有 部 分 人 把 知识 管理 实施 中 组 织 内 涉及 的 
各 个 方面 (例如 著名 的 知识 管理 专家 Peter Meso 和 Robert Smith 就 认为 知识 管理 系统 应 该 
由 知识 ,技术 基础 、 组 织 基 础 、 人 力 资源 、 文 化 五 部 分 资源 组 成 ) 都 称 作 为 知识 管理 系统 ; 而 
另 一 部 分 人 则 把 知识 管理 系统 定义 为 辅助 组 织 实施 知识 管理 的 IT 系统 , 即 所 指 的 知识 管 
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理 系 统 是 辅助 组 织 实 施 知 识 管理 的 IT 工具 。 

知识 管理 系统 不 等 同 于 知识 管理 技术 。 目 前 知识 管理 系统 中 应 用 的 主要 技术 有 网 络 通 
信 技 术 .知识 仓库 技术 .自然 语言 理解 技术 .神经 网 络 技术 等 ,这 些 新 技术 能 够 改善 知识 管理 
系统 的 性 能 。 知 识 管理 系统 技术 随 着 技术 的 发 展 不 断 涌现 与 更 新 ,如 过 去 集中 于 文件 的 建 
立 、 维 护 和 版 本 控制 的 文件 管理 系统 ,如 今 与 群 件 /协作 应 用 结合 起 来 。 

在 系统 的 构成 方面 , 面 对 越 来 越 多 的 技术 可 能 性 应 当 慎 重 考虑 。 软 件 模块 的 功能 并 非 
越 多 越 好 ,应 当 经 过 仔细 的 考虑 和 筛选 ,使 得 系统 具有 三 个 特性 : 实用 性 、 友 好 性 和 可 拓展 
性 。 所 谓 实用 性 ,就 是 要 保证 成 员 能 够 从 使 用 该 知识 系统 获 益 ,而 不 是 给 组 织 提供 一 个 中 看 
不 中 用 的 “花瓶 >。 所 谓 友 好 性 ,就 是 系统 应 该 是 容易 使 用 ,容易 学 习 的 ,用 户 对 系统 没有 旦 
难 情绪 ,是 系统 能 够 迅速 推广 的 一 个 重要 条 件 。 所 谓 可 拓展 性 ,就 是 系统 要 能 够 适应 组 织 业 
务 的 变化 。 知 识 管理 系统 往往 是 随 着 组 织 需 求 的 增加 而 扩大 的 ,需要 能 随 着 它 所 支持 的 业 
务 一 起 成 长 。 在 系统 设计 中 ,往往 从 一 个 核心 的 需求 开始 ,逐步 扩大 其 规模 和 功能 。 

基于 以 上 的 考虑 ,知识 管理 系统 根据 其 模块 的 组 合 ,提供 知识 管理 的 各 种 功能 。 在 实际 
的 应 用 中 ,有 的 组 织 注重 实现 个 体 间 的 知识 共享 ,因此 知识 管理 系统 需要 有 良好 的 知识 整理 
和 知识 传播 的 能 力 ; 有 的 组 织 注重 协同 性 知识 工作 ,通过 思想 火花 的 碰撞 产生 新 的 知识 ; 
有 些 组 织 则 把 重点 放 在 对 知识 的 捕捉 、 操 作 与 定位 ,侧重 进行 与 知识 相关 的 信息 管理 。 另 外 
一 些 组 织 着 眼 于 建设 、 开 发 智力 资本 ,提供 自由 的 ,不 受 限 制 的 ,简单 易 行 的 对 话 功 能 ,以 提 
高 组 织 中 知识 活动 的 有 效 性 。 还 有 一 些 组 织 注重 创造 一 种 学 习 环 境 , 从 而 使 得 成 员 能 够 保 
持 对 新 知识 的 关注 。 

2. 知识 管理 与 信息 管理 的 关系 

知识 与 信息 ,知识 管理 与 信息 管理 是 紧密 相关 的 。 信 息 是 事物 运动 的 状态 及 其 变化 的 
方式 ,信息 有 时 与 主体 有 关 。 而 知识 是 客观 的 ,与 主体 无 关 。 知 识 是 信息 ,是 信息 的 提炼 和 
一 般 化 ,然而 信息 不 一 定 是 知识 。 

信息 管理 是 为 实现 组 织 目 标 、 满 足 组 织 需求 而 对 信息 资源 进行 规划 、 开 发 集成 和 利用 。 
在 知识 管理 与 信息 管理 的 关系 方面 .信息 管理 是 知识 管理 的 基础 ,知识 管理 是 信息 管理 的 拓 
展 和 延伸 。 信 息 管理 和 知识 管理 之 间 的 区 别 体现 在 以 下 几 个 方面 。 

首先 ,知识 管理 拓展 了 信息 管理 的 对 象 。 知 识 管 理 的 对 象 包 括 知识 以 及 传统 意义 上 知 
识 的 创造 者 一 一 人 ,而 信息 管理 仅仅 局 限于 用 语言 文字、 图 形 .图 像 和 视频 等 各 种 载体 表示 
的 信息 。 因 为 知识 存在 于 人 的 头脑 之 中 ,所 以 只 有 人 能 够 充当 知识 创造 的 主体 ,尽管 计算 机 
具有 强大 的 信息 处 理 能 力 , 它 只 能 是 知识 创造 的 辅助 工具 。 因 此 ,知识 管理 把 人 纳入 了 其 管 
理 的 范畴 。 

其 次 ,知识 管理 提升 了 信息 管理 的 地 位 和 作用 。 信 息 管 理 服务 于 组 织 的 生产 、 经 营 和 管 
理 。 信 息 管理 系统 是 为 组 织 整 体 的 管理 ,控制 和 决策 等 服务 , 它 的 成 功 运 行 可 以 保证 组 织 运 
作 的 高 效率 、 及 时 性 和 适应 性 。 在 知识 型 组 织 中 ,知识 的 生产 ,传播 和 利用 是 组 织 的 主要 工 
作 之 一 ,是 组 织 核心 竞争 力 的 综合 体现 ,是 组 织 在 激烈 的 全 球 竞 争 环境 中 制胜 的 法 宝 。 知 识 
管理 不 仅仅 是 人 与 人 之 间 的 知识 共享 ,还 包括 知识 的 创造 和 利用 。 创 造 知识 的 增值 价值 和 
增值 服务 是 知识 管理 的 目的 ,也 是 其 备 受 青 睐 的 原因 所 在 。 

再 次 ,知识 管理 强化 了 对 信息 管理 基础 设施 的 要 求 。 特 别 是 在 知识 传播 方面 ,要 求 做 到 
任何 时 间 ,任何 地 点 ,任何 人 都 可 以 获得 所 需要 的 知识 ,以 保证 知识 服务 的 实时 性 和 高 效 性 。 


最 后 ,知识 管理 是 与 信息 技术 .人 工 智 能 、 管 理科 学 人 文科 学 和 经 济 学 等 相关 的 交叉 学 
科 。 知 识 管理 研究 人 和 知识 在 知识 型 组 织 中 的 地 位 和 作用 ,研究 人 类 生产 知识 的 机 制 , 以 及 
信息 技术 如 何 被 用 来 提供 知识 生产 .流通 和 使 用 的 支撑 环境 。 知 识 管理 还 研究 知识 如 何 有 
效 组 织 、 存 储 和 处 理 , 以 协助 乃至 代 蔡 人 类 使 用 和 创造 知识 。 与 之 相 比 ,目前 的 信息 管理 在 
相当 程度 上 还 属于 计算 机 应 用 技术 的 范畴 。 


11.5.4 方法 和 步骤 


1. 实施 方法 

知识 管理 实施 的 方法 论 包 括 战略 、 实 施 以 及 保障 这 三 个 层面 ,具体 包括 : 

CD 构建 支持 知识 管理 的 组 织 体系 。 知 识 管理 具有 责任 分 散 的 趋向 。 因 此 ,要 建立 一 
套 有 效 的 组 织 体系 ,以 支持 企业 的 知识 管理 活动 。 在 这 一 体系 中 是 要 有 负责 知识 管理 活动 
的 领导 人 ,承担 制定 管理 计划 和 协调 企业 的 各 种 知识 管理 活动 ; 即 成 立 专门 的 小 组 ,完成 与 
知识 管理 活动 有 关 的 任务 。 他 们 可 以 来 自 不 同 的 部 门 ,以 保证 各 个 部 门 的 需要 可 以 都 得 到 
协调 和 满足 。 此 外 ,企业 领导 人 的 支持 是 知识 管理 活动 成 功 的 保证 。 

(2) 构建 支持 知识 管理 的 技术 体系 。 要 建立 一 套 有 效 的 技术 体系 以 支持 企业 的 知识 管 
理 活动 。 主 要 是 建立 支撑 知识 管理 的 基础 设施 ,如 统一 的 信息 技术 平台 ,数据 库 和 知识 库 
等 ,并 采用 专业 的 知识 获取 、 知 识 表 示 、 知 识 发 现 软 件 。 知 识 管理 实践 实际 上 是 一 个 信息 技 
术 平 台 重新 综合 ,建立 的 过 程 。 一 个 良好 的 知识 管理 技术 体系 ,可 以 提升 知识 管理 的 效率 ， 
易于 知识 管理 在 实体 内 的 推广 。 

(3) 加 大 对 知识 管理 的 资金 投入 。 企 业 知识 管理 活动 需要 资金 支持 ,这 反映 了 企业 对 
知识 管理 的 责任 感 。 要 动员 企业 全 体 人 员 为 知识 管理 投资 ,以 保证 知识 管理 活动 的 正常 
开展 。 

(4) 创造 知识 共享 的 企业 文化 。 有 利于 知识 共享 的 企业 文化 ,包括 良好 的 职业 道德 、 企 
业 荣 誉 感 和 团队 精神 等 等 。 发 动 全 体 员工 ,营造 知识 管理 的 氛围 ,建立 学 习 型 的 组 织 。 教 授 
员工 学 习 和 掌握 知识 库 的 使 用 方法 ,鼓励 员工 善于 利用 知识 库 ,特别 要 鼓励 员工 整理 固化 知 
识 并 将 知识 上 传 到 相应 的 知识 库 ,鼓励 全 体 员工 贡献 自己 的 知识 与 他 人 分 享 , 从 而 不 断 丰 富 
和 完善 企业 的 知识 库 ,形成 全 员 知 识 管理 的 企业 文化 。 

(5) 建立 动态 联盟 ,培养 知识 创新 能 力 。 知 识 创新 是 知识 管理 的 终极 目标 ,没有 知识 创 
新 能 力 的 公司 将 很 快 被 市 场 淘汰 。 通 过 建立 动态 联盟 .构建 战略 合作 伙伴 的 知识 网 络 体系 ， 
是 提高 企业 知识 创新 能 力 的 有 效 支持 手段 。 

(6) 建立 知识 管理 评估 体系 。 不 要 用 传统 的 财务 方法 对 企业 的 知识 管理 活动 效果 做 出 
评估 。 而 是 要 研究 和 建立 面向 知识 经 济 和 知识 管理 的 无 形 资产 评估 体系 ,如 无 形 资产 组 成 
指标 法 .计算 知识 管理 的 投资 回报 率 等 。 

2. 实现 步骤 

知识 管理 实现 可 以 分 为 战略 规划 阶段 ,业务 规划 阶段 、 系 统 实施 阶段 和 评估 与 改进 阶 
段 ,具体 步骤 如 图 11.9 所 示 。 

(1) 战略 规划 阶段 。 包 括 知识 管理 目标 与 愿景 的 制定 、 现 状 评估 差距 分 析 及 策略 制定 。 
知识 管理 的 目标 不 能 脱离 实体 的 管理 目标 独立 存在 。 它 必须 与 实体 的 总 体 战 略 目标 一 致 ， 
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系统 实施 阶段 ) 。 实 施 组 织 确定 
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。 开 展 实施 及 系统 推广 
==: 
TEGU) À 知识 管理 系统 评估 
评估 与 改进 阶段 iuc 

。 改 进 系统 


11.9 知识 管理 实施 阶段 的 具体 步骤 


才能 有 生存 和 发 展 的 基础 。 现 状 评估 及 差距 分 析 应 以 知识 管理 对 实体 的 支撑 和 提升 为 核 
心 , 从 实际 现状 和 需要 ,结合 国内 外 知识 管理 实践 ,对 知识 管理 如 何 促进 实体 的 管理 和 运营 
进行 资料 收集 ` 调 研 .讨论 和 分 析 。 从 而 制定 知识 管理 的 策略 。 

(2) 业务 规划 阶段 。 包 括 知 识 管理 流程 分 析 与 优化 、 组 织 架构 制度 的 定义 、 知 识 管理 系 
统 的 架构 与 功能 、 系 统 实施 策略 制定 等 方面 。 知 识 管理 的 流程 应 包括 知识 的 获取 、 组 织 、 重 
构 、 存 储 或 记忆 ,以 及 分 配 、 共 享 、 交 流 和 创新 、 应 用 。 业 务 规划 阶段 应 考虑 实体 的 知识 管理 
建设 的 短期 和 长 期 的 目标 。 例 如 ,知识 检索 系统 ,应 能 为 实体 提供 更 智能 化 的 知识 检索 ,而 
不 是 简单 的 一 种 搜索 结果 的 堆积 ,应 侧重 于 知识 的 检索 .传播 和 利用 。 

G) 系统 实施 阶段 。 包 括 知识 管理 系统 选 型 .实施 组 织 确定 、 实 施 计 划 制 定 `. 开 展 实施 
及 系统 推广 。 每 个 实体 都 有 不 同 的 业务 体系 ,包括 生产 、 研 发 .销售 等 ,不 同 的 业务 体系 的 任 
务 特性 均 不 相同 ,其 完成 任务 所 需 的 知识 亦 有 不 同 , 因 此 需要 根据 不 同业 务 体系 的 任务 特性 
和 知识 应 用 特点 ,拟订 最 合适 .成 本 最 低 的 知识 管理 方法 。 另 外 ,考虑 到 一 种 业务 体系 下 有 
多 方面 的 知识 ,如 何 识别 关键 知识 ,并 判断 关键 知识 的 现状 ,在 知识 管理 模式 的 指导 下 采取 
有 针对 性 的 提升 行为 。 所 以 ,此 阶段 的 重点 是 结合 企业 业务 模式 进行 知识 体系 梳理 ,并 对 知 
识 梳理 结果 进行 分 析 , 以 确定 知识 管理 具体 策略 和 提升 行为 。 本 阶段 是 知识 管理 从 战略 规 
划 到 落地 实施 的 阶段 ,根据 对 企业 试点 部 门 的 知识 管理 现状 .需求 和 提升 计划 的 分 析 , 应 该 
考虑 引入 支撑 知识 管理 落地 的 知识 管理 IT 系统 。 根 据 前 几 个 阶段 的 规划 和 分 析 , 选 择 适 
合 企 业 现状 的 IT 落地 方法 ,如 带 知识 管理 功能 的 办 公 协 同系 统 、 知 识 管理 系统 、 知 识 门 户 

(4) 评估 与 改进 阶段 。 对 企业 的 知识 管理 系统 的 本 身 及 实施 进行 评估 ,并 根据 企业 实 
际 进行 改进 。 在 当今 信息 化 的 社会 中 ,信息 的 更 新 速度 和 市 场 环境 的 变化 速度 比 以 往 任何 
时 候 都 快 。 所 以 要 不 断 地 评估 现 有 的 知识 管理 体系 ,并 加 以 改进 ,使 之 适应 不 断 变 化 的 市 场 
环境 ,社会 环境 和 实体 的 管理 目标 。 


第 12 章 语义 网 和 本 体 


12.1 语义 网 


1990 4E Tim Berners Lee 发 明了 万 维 网 , 旨 在 通过 Internet 获取 各 种 信息 。 二 十 几 年 
过 去 了 ,万 维 网 飞速 发 展 ,从 最 初 被 动 地 发 布 数据 ,到 交互 式 地 获取 所 需 数据 ,到 现在 实现 知 
能 检索 , 即 根据 用 户 需求 获取 信息 。 现 有 的 检索 工具 ,如 Google 已 经 把 检索 范围 和 搜索 速 
度 提 升 到 前 所 未 有 的 程度 。 然 而 ,人 们 发 现 万 维 网 还 是 无 法 满足 日 益 丰 富 多 样 的 需求 ,其 局 
限 性 体现 在 : 

CD 信息 是 海量 的 ,但 缺乏 对 信息 的 描述 , 即 缺 乏 元 数据 (Metadata) ; 

(2) 万 维 网 的 基石 一 一 HTML 提供 的 链接 缺乏 语义 ; 

(3) 基于 关键 词 检索 的 万 维 网 搜索 引擎 的 检索 质量 和 效果 不 尽 人 意 。 

2000 年 12 月 在 XML 2000 会 议 上 ,Tim Berners Lee 提出 了 下 一 代 因 特 网 的 概念 一 - 
语义 网 (Semantic Web) ,为 人 们 描绘 了 未 来 语义 网 的 美好 前 景 。 语 义 网 是 当前 万 维 网 的 扩 
展 和 延伸 。 语 义 网 的 信息 具有 充分 、 完 备 的 语义 定义 ,能 够 在 人 与 计算 机 之 间 建 立 语义 上 的 
理解 与 合作 。 因 此 ,语义 网 是 具有 语义 的 万 维 网 ,是 能 够 理解 语义 的 万 维 网 。 


12.1.1 概述 


语义 网 研究 的 重点 是 如 何 把 信息 表示 为 计算 机 能 够 理解 和 处 理 的 形式 , 即 带 有 语义 。 
语义 网 中 语义 是 核心 , 即 能 够 在 人 与 计算 机 之 间 、 计 算 机 与 计算 机 之 间 以 无 偏差 的 方式 传递 
的 信息 。 语 义 网 的 基本 思想 是 对 互联 网 上 的 任意 资源 ,进行 结构 化 的 描述 并 引入 语义 ,使 得 
计算 机 可 以 理解 互联 网 上 的 信息 。 当 然 ,计算 机 不 可 能 真正 像 人 一 样 进行 思考 ,但 是 通过 制 
定 标 准 , 使 用 标准 描述 信息 的 含义 ,计算 机 就 可 以 根据 标准 自动 进行 分 析 和 推理 ,将 网 络 服 
务 集成 在 一 起 ,使 自动 化 智能 服务 成 为 可 能 。 语义 网 是 通过 在 网 上 提供 定义 好 的 ,相互 链接 
的 数据 ,让 网 上 的 数据 被 高 效 .自动 地 发 掘 利 用 、 不 同 的 数据 能 更 好 地 集成 ,而 且 能 被 各 种 不 
同 的 应 用 程序 使 用 。 

语义 网 提供 一 个 基础 架构 ,通过 这 个 架构 在 Internet. 上 不 再 只 处 理 Web 页 面 ,数据 库 、 
Web 服务 ,程序 、 传 感 器 个 人 智能 设备 甚至 家 用 电器 设备 都 能 通过 网 页 来 传递 并 处 理 数 
据 。 各 种 软件 代理 能 够 搜索 并 过 滤 这 些 数据 ,以 一 种 全 新 的 令 人 激动 的 方式 把 这 些 处 理 好 
的 数据 送 到 Web 使 用 者 面前 。 

回想 一 下 Internet 刚 普及 时 的 文档 处 理 系统 ,检索 并 引用 远程 系统 的 信息 还 是 专家 们 
的 游戏 。 虽 然 Internet 可 使 用 户 很 方便 地 登录 到 远程 系统 ,然而 这 些 系 统 往往 使 用 不 同 的 
信息 提取 协议 ,例如 通过 Telnet 登录 到 一 个 远程 系统 后 ,在 获取 信息 之 前 用 户 需要 首先 了 
解 该 系统 的 信息 提取 协议 ,而且 找 到 所 需 信 息 后 ,要 先 复制 到 用 户 的 剪贴 板 ,然后 再 复制 (或 
者 重新 输入 ) 到 自己 的 文档 中 。 采 用 上 述 方式 对 于 处 理 那 些 关 联 性 强 . 时 效 性 和 准确 度 要 求 
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极 高 的 文档 简直 就 是 一 场 豆 梦 。 

有 了 Web 技术 后 , 则 能 轻松 实现 信息 间 的 无 缝 链接 ,尽管 很 多 系统 的 Web 服务 器 可 能 
运行 在 不 同 的 机 器 上 ,但 在 Web 应 用 程序 之 间 传 递 内 容 仍然 是 很 困难 的 。 目 前 ,在 充分 利 
用 Web 方面 仍然 受到 很 多 束缚 。 假 设 用 户 在 浏览 Internet 时 偶然 打开 了 一 个 会 议 召 集 通 
All. Web 上 有 召开 会 议 的 时 间 和 地 点 ,并且 还 有 很 多 超 链接 地 址 ,分 别 链接 到 本 次 会 议 召集 
人 及 其 他 参与 人 员 的 个 人 主页 。 当 用 户 报名 参加 本 次 会 议 , 开 始 单 击 注册 按钮 ,此刻 期 待 着 
电子 日 历 能 自动 记录 会 议 的 日 期 和 时 间 , 并 能 链接 到 Web 上 的 详细 说 明 ,希望 数字 电话 能 
下 载 会 场地 址 并 计算 出 在 会 议 当 天 到 达 的 最 佳 行车 路 线 ; 还 希望 随身 携带 的 商务 通 能 自动 
把 参 会 人 员 的 联系 方式 下 载 并 临时 保存 起 来 ,直到 会 议 结束 。 用 户 是 多 么 希望 上 述 处 理 能 
够 在 Web 上 通过 一 次 单 击 即 可 全 部 自动 完成 。 

遗憾 的 是 ,现在 还 无 法 做 到 。 事 实 上 用 户 不 得 不 非常 辛苦 地 把 会 议 详细 情况 逐条 复制 
并 粘贴 到 地 址 本 ,自己 去 查找 会 议 日 期 和 时 间 ,不 得 不 手工 从 各 个 会 议 参加 者 的 个 人 主页 中 
寻找 并 复制 其 联系 信息 到 地 址 本 中 ,手动 调整 其 地 址 和 电话 号 码 格式 ,还 不 得 不 在 手机 上 录 
入 会 议 的 位 置信 息 。 以 上 描述 的 情形 还 只 是 个 人 在 网 络 上 处 理 数据 所 遇 到 的 麻烦 ,处 理 企 
业 业 务 数据 时 的 困难 更 是 可 想 而 知 。 如 果 用 户 试图 连接 公司 内 部 运行 的 不 同 的 数据 处 理 系 
统 , 或 者 试图 帮助 客户 从 多 种 数据 库 中 整合 所 需 的 信息 ,可 能 会 遇 到 非常 尴 熔 的 情形 。 在 库 
存 管理 系统 和 财务 系统 中 存在 很 多 重 又 的 数据 ,在 整合 这 两 个 系统 的 数据 时 很 容易 发 生 主 
键 冲突 或 者 数据 关联 错误 ,可 能 不 得 不 使 用 程序 员 编 写 的 接口 程序 从 库存 管理 系统 中 筛选 
并 格式 化 数据 ,然后 导入 到 财务 管理 系统 。 同 时 还 发 现 企业 的 客户 关系 管理 系统 也 应 该 和 
订单 管理 同步 进行 数据 整合 ,否则 将 会 严重 影响 公司 的 业务 和 生产 。 一 次 又 一 次 ,只 能 不 停 
地 让 程序 员 编 写 各 种 接口 程序 ,如 果 公 司 存在 很 多 不 同 的 应 用 系统 ,将 需要 编写 大 量 代码 提 
供 各 种 数据 接口 ,这 无 疑 会 带 来 高 昂 的 程序 维护 开销 。 

使 用 扩展 标记 语言 (XML) 对 于 改善 上 述 情况 将 有 所 帮助 ,如 果 所 有 的 应 用 程序 都 采用 
XML 格式 ,程序 员 只 要 学 会 处 理 XML 数据 ,就 不 必 和 各 种 离奇 古怪 的 数据 格式 打交道 。 
这 意味 着 可 以 利用 一 些 XML 工具 ,如 XSLT( 一 种 转换 语言 ,参见 http://www. w3. org/ 
TR/xslt) 来 粘 合 应 用 程序 。 遗 憾 的 是 ,这 种 技术 还 无 助 于 彻底 改善 数据 接口 的 效率 。 因 为 
每 一 对 应 用 程序 之 间 , 甚 至 同一 对 应 用 程序 的 每 一 种 接口 之 间 , 都 需要 定制 相应 的 XML 到 
XML 桥 。 换 言 之 ,在 不 同 的 应 用 程序 之 间 提 取 XML 文件 时 ,不 是 简单 地 进行 合并 。 为 了 
执行 针对 XML 文件 的 查询 ,还 需 针 对 其 配对 文件 补充 特定 的 限制 条 件 , 不 是 简单 地 把 两 个 
查询 合并 到 一 起 。 这 与 关系 数据 库 中 通用 的 数据 元 能 被 轻松 地 连接 到 一 起 的 处 理 方式 大 不 
相同 。 

但 是 ,不 同 的 数据 库 由 不 同 的 Schemas( 数 据 视 图 ) 文 件 组 成 ,而 且 这 些 Schemas 的 表达 
并 不 清晰 。 因 此 , 仅 靠 XML 标记 很 难 直接 和 另 一 个 数据 库 中 的 域 关 联 。 解 决 办 法 之 一 是 
把 这 些 Schemas 变 得 更 明白 易 懂 ,并 映射 为 统一 的 术语 。XML-Schema 语言 (http:// 
www. w3. org/XML/Schema) 人 允许 很 多 公益 组 织 整理 出 统一 的 Schema 文件 。 一 个 公司 其 
至 是 一 个 特定 的 商业 部 门 , 通 过 开发 一 个 统一 的 XML. 映射 集 (例如 一 个 特定 的 schema XC 
件 ) ,就 能 采用 统一 结构 表达 信息 。 实 际 中 ,实施 起 来 并 不 容易 ,而 且 针 对 不 同 用 户 开 发 一 个 
大 型 词汇 表 是 非常 棘手 的 事情 。 

不 同 结构 的 schemas 文件 ,或 者 是 基于 不 同 商业 词汇 的 不 同 用 户 的 schemas 文件 之 间 


的 映射 ,都 不 是 XML-schema 所 能 解决 的 问题 。 实 际 中 经 常 需要 处 理 异 构 数 据 的 映射 问 
题 ,为 此 需要 寻求 更 为 有 效 的 数据 表达 工具 。 例 如 关系 数据 库 中 的 关系 演算 ,数据 表达 能 力 
和 远 远 胜 过 许多 旧 的 数据 库 ( 文 件数 据 库 ) ,因此 它 成 了 过 去 处 理 数据 映射 的 标准 。 更 为 有 效 
的 表达 方法 ,例如 实体 关系 或 者 对 象 模型 ,可 以 解决 复杂 的 数据 映射 或 者 查询 异 构 数 据 。 总 
之 ,采用 更 有 表现 力 的 语言 能 提升 协同 工作 的 层次 。 既 然 以 前 老 的 数据 系统 采用 关系 模型 
很 好 地 解决 了 数据 兼容 问题 ,所 以 非 结构 化 的 Web 数据 ,或 XML-schema 定义 ,也 可 以 通 
过 关系 模型 有 效 解决 数据 模型 问题 。 

为 此 ,建立 了 一 个 名 为 资源 描述 框架 (Resource Description Framework. RDF, 参 见 
http://www. w3. org/RDF/) 的 语义 网 基础 组 件 。 如 果 两 份 来 自 不 同 数据 源 的 RDF 格式 
文件 需要 合并 ,只 需要 将 其 合并 成 一 个 大 文件 , 即 把 文件 中 的 关键 字 进 行 简单 的 连接 。 因 为 
RDF 文件 格式 的 关键 字 均 采用 相同 的 通用 资源 定位 符 (URI)。 如 果 想 在 合并 后 的 RDF x 
件 中 增加 限制 条 件 , 修 改 原来 的 查询 方式 ,只 需要 直接 在 新 的 RDF 文件 中 增加 限制 条 件 即 
可 。XML 文件 是 由 元 件 和 属性 组 成 的 ,只 能 告诉 我 们 文件 里 面 记 录 了 什么 内 容 ,而 RDF 则 
由 一 段 段 数据 表达 式 组 成 ,每 个 表达 式 都 描述 了 一 个 特定 的 值 ,这 个 值 相对 于 一 个 数据 库 表 
的 单元 。 原 有 的 关系 数据 库 运算 都 可 兼容 ,如 连接 和 视图 等 ,并 可 以 使 用 常见 的 工具 加 以 
执行 。 

这 样 可 以 顺利 地 解决 企业 级 应 用 系统 间 的 数据 集成 问题 。 只 要 把 每 个 应 用 程序 的 数据 
输出 转换 为 RDF 格式 文件 ,就 可 以 针对 RDF 执行 各 种 查询 ,可 轻松 地 编写 并 修改 查询 条 
件 ,导出 所 需要 数据 。 反 之 ,这 些 数据 也 能 轻松 地 导入 到 其 他 应 用 程序 中 。 而 且 , 这 种 问题 
和 系统 规模 只 是 线性 相关 ,就 好 像 添加 新 的 Web 服务 器 不 会 影响 到 其 他 人 浏览 Web 一 样 ， 
新 的 RDF 也 能 被 轻松 地 添加 到 Internet 上 , 而 不 会 影响 正常 使 用 。 大 量 需要 人 工 编写 的 数 
据 接口 奇迹 般 地 消失 了 ,就 像 文 档 之 间 可 以 连接 一 样 ,数据 也 能 通过 Web 连接 在 一 起 。 

正如 如 果 没 有 RDF 就 难以 在 互联 网 上 整合 数据 库 一样 , 应 用 程序 的 跨 互 联网 整合 也 遇 
到 了 同样 的 问题 。 表 面 上 来 看 ,在 Internet 上 整合 应 用 程序 是 很 容易 的 ,经 常 是 轻 轻 点 击 一 
下 就 从 Internet FAX Java 或 Flash 程序 到 本 地 运行 。 但 这 对 于 电子 商务 应 用 程序 是 无 效 
的 ,特别 是 在 B2B 的 应 用 程序 之 间 。 

设想 某 个 企业 想 从 一 个 供应 商 那 边 购置 一 批零 部 件 ,需要 先 联系 大 型 船 运 公司 安排 船 
运 ,然后 从 本 地 几 个 生产 商 中 精心 挑选 一 家 在 零件 运 到 时 具备 最 高 生产 能 力 的 厂家 生产 。 
而 且 是 希望 能 通过 Web 高 效 地 解决 这 一 问题 , 即 由 一 个 销售 员 下 订单 ,然后 启动 整个 供应 
链 高 效 协 同 工 作 。 这 看 上 去 和 前 面 提 及 的 数据 库 间 整合 有 几 分 相似 ,然后 却 要 复杂 得 多 。 
因为 牵涉 到 的 各 家 企业 采用 的 内 部 管理 软件 可 能 完全 不 同 , 而 不 仅仅 是 数据 库 的 不 一 致 。 
更 糟 的 是 ,这 些 应 用 程序 可 能 运行 在 企业 内 部 某 台 特 定 用 途 的 计算 机 上 或 者 隐身 在 内 部 防 
火 墙 和 安全 防护 设备 的 后 面 。 首 要 解决 的 问题 就 是 规划 如 何 才 能 通过 Internet 把 这 些 不 同 
的 应 用 程序 集成 起 来 ,也 就 是 要 为 这 些 程序 提供 通信 协议 可 以 理解 的 服务 描述 书 。 很 多 IT 
企业 一 直 在 致力 于 解决 这 一 难题 ,从 而 形成 了 一 个 正 快 速 增长 的 Web 服务 市 场 ,这 也 是 现 
代 电 子 商务 中 增长 得 最 快 的 业务 。 例 如 著名 的 BC 电子 商务 组 织 Gartner 声称 :“ 采 用 
Web 服务 将 降低 成 本 ,将 IT 项 目的 效率 提高 30%。 估 计 Web 服务 业已 形成 了 十 多 亿美 金 
的 市 场 规模 ,并 正在 迅速 成 长 。 

所 以 , 正 加 速 开发 新 的 协议 和 语言 以 标准 化 描述 Web 服务 。 目 前 ,开发 了 一 种 基于 
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XML 的 SOAP(http://www. w3. org/TR/SOAP) 协 议 为 Web 服务 之 间 提 供 基 于 互联 网 
的 标准 调用 方法 。 此 外 ,正在 抓紧 研发 新 的 Web 服务 描述 方法 和 Web 服务 架构 语言 ,这 也 
是 W3C(World Wide Web Consortium) 组 织 当前 的 主要 任务 。 

语义 网 将 在 广泛 分 发 Web 服务 时 提升 Web 服务 的 作用 。 许 多 Web 服务 供应 商 希望 
通过 Internet 在 更 大 的 范围 内 为 不 同 的 用 户 共享 他 们 的 服务 ,提供 中 间 代 理 服 务 即 一 种 让 
Web 服务 能 在 用 户 间 自 动 匹配 的 能 力 , 是 非常 困难 的 。 而且, 这 种 周而复始 的 同类 词汇 间 
的 映射 会 导致 数据 库 的 暴露 。 使 用 现 有 的 实现 方法 , Web 服务 描述 了 输入 、 输 出 、 端 口 和 其 
他 调用 概要 ,但 是 服务 的 行为 描述 却 以 一 个 content( 内 容 ) 字 段 保留 下 来 ,等 待 着 将 来 加 以 
描述 。 因 此 ,这 个 问题 就 和 前 面 的 数据 库 间 整合 非常 相似 了 ,不 同 企业 用 户 间 未 经 商定 的 不 
同 映射 等 待 着 被 解析 。 在 预先 分 派 好 的 团体 用 户 里 面 还 有 达成 一 致 的 可 能 ,但 和 那些 外 来 
的 Web 服务 提供 商 , 由 于 他 们 使 用 了 不 同 的 schema, 要 统一 建立 映射 关系 就 非常 困难 ,这 
要 求 我 们 在 整个 供应 链条 上 进行 大 量 的 预先 约定 ,而 这 将 大 大 限制 Web 服务 的 应 用 
范围 。 

对 此 ,强大 的 请 义 网 表达 语言 能 够 提供 帮助 。RDF 的 扩展 , 即 RDF schema 以 及 一 种 
新 研发 的 Web 本 体 语言 OWLhttp: //www. w3. org/2001/sw/WebOnt/) ,能 够 建立 层级 
和 词 库 ,帮助 解释 词汇 间 是 如 何 关联 的 。 例 如 ,已 在 互联 网 上 建立 一 个 说 明和 运送 事件 的 
schema, 邮 和 寄 是 一 种 运输 服务 ,加 急 邮 件 是 一 种 邮政 服务 等 等 。 通 过 合并 不 同 的 词汇 表 描 
述 的 服务 可 以 轻松 整合 出 新 的 服务 ,而且 被 合并 的 文件 仍然 是 合法 的 RDF., 

此 外 ,并 不 要 求 建立 服务 连接 的 描述 信息 采用 自然 语言 中 的 公共 词汇 。 不 管 外 部 服务 
来 源 是 来 自 一 个 不 同 的 用 户 还 是 开发 者 ,是 来 自 一 个 不 同 的 词典 还 是 随机 在 Internet. 上 发 
现 的 某 个 Web ,都 能 解释 映射 信息 。 因 此 ,只 需 将 名 为 lorry 的 合作 者 和 truck 之 间 建 立 对 
应 关系 ,以 后 当 合并 图 表 时 ,可 以 发 现 lorry 与 truck 的 联系 。 甚 至 ,这 种 新 的 语言 还 允许 执 
行 更 为 复杂 的 映射 和 合并 ,例如 如 果 把 Nissan-Maxima 定义 为 豪华 型 汽车 ,产地 是 日 本 , 当 
我 们 连接 到 尼桑 经 销 商 的 服务 时 , 即 可 找到 上 面 定 义 的 属性 。 

当 某 些 相对 复杂 的 服务 不 能 很 快 从 Internet 获得 时 ,语义 网 将 能 提升 现 有 Web 服务 的 
能 力 。 例 如 一 家 专门 提供 小 糖果 礼品 盒 的 公司 需要 同时 订购 100 个 心 形 巧克力 和 200 个 棒 
棒 糖 ,并 需要 把 它们 运送 到 北京 进行 包装 ,很 容易 可 以 找到 心 形 巧克力 供应 商 、 棒 棒 糖 生产 
厂家 甚至 很 多 的 运输 企业 ,但 这 不 是 仅 通 过 一 个 服务 能 够 解决 的 。 显 然 我 们 希望 能 把 上 述 
几 个 服务 打包 在 一 起 而 不 必 去 辛苦 寻找 三 个 以 上 的 Web 服务 。 语 义 网 允许 把 所 需 的 服务 
轻松 地 整合 起 来 ,即便 事先 没有 采用 同样 的 词汇 进行 服务 定义 。 甚 至 ,语义 网 的 应 用 程序 还 
能 分 析 实现 目标 的 方法 ,提供 高 效 、 合 理 的 Web 服务 集成 (例如 , 送 巧 克 力 需要 冷藏 ,能 自动 
添加 该 项 服务 申请 以 保证 巧克力 不 会 在 运输 过 程 中 融化 )。 尽 管 复杂 的 Web 服务 组 合 仍 是 
一 个 尚 在 研究 的 课题 ,但 许多 基本 的 Web 服务 装配 ,如 各 种 不 同 服务 的 输入 和 输出 匹配 已 
经 可 以 通过 现 有 的 语义 网 工具 成 熟 应 用 了 。 

或 许 , 曾 有 人 担心 建立 语义 网 是 在 从 事 一 项 面向 未 来 且 十 分 困难 的 工作 ,但 事实 并 非 如 
此 。 语 义 网 ,正如 万 维 网 一 样 , 只 要 拥有 明确 的 设想 就 可 以 在 Internet 上 轻松 实现 。 只 是 把 
很 多 众所周知 的 成 熟 技术 带 到 Internet. 上 ,让 不 同 的 数据 和 应 用 程序 通过 Web 自动 集成 ， 
以 消除 以 前 需要 复杂 的 人 为 干预 才能 协调 工作 的 麻烦 。 


12.1.2 层次 结构 


语义 网 构建 在 自 定 义 标记 的 XML 和 数据 表示 灵活 的 RDF 基础 上 , 旨 在 应 用 有 效 的 标 
准 和 技术 使 计算 机 能 够 更 多 地 理解 Web 信息 ,从 而 实现 知识 发 现 、 数 据 集成 和 信息 导航 等 ， 
并 将 特定 的 信息 添加 到 万 维 网 上 辅助 服务 的 自动 化 。 

语义 网 的 层次 结构 如 图 12. 1 所 示 , 自 底 向 上 依次 为 Unicode( 统 一 字符 编码 ) 和 URI 
(Universal Resource Indicator, 统 一 资源 定位 符 )、XML、RDF 和 RDF Schema(RDFS) ,本 
体 (Ontology) .逻辑 (Logic) 、 证 明 (Proof) 和 信任 (Trust)。 在 语义 网 的 七 层 结构 中 ,XML、 
RDF 和 Ontology 三 层 是 核心 和 关键 ,主要 用 于 表示 Web 信息 的 语义 。 经 过 长 久 的 研究 和 
发 展 ,这 三 层 已 较为 成 熟 ,推出 并 形成 了 一 系列 的 成 果 和 标准 ,而 证 明 层 正 处 于 探索 之 中 。 
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数据 证 明 
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数据 逻辑 iB 
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XML+NS+xmlschema 
Unicode URI 


12.1 语义 网 的 层次 结构 


此 外 ,数字 签名 位 于 层次 模型 的 右 侧 ,贯穿 了 语义 网 的 中 间 四 层 。 数 字 签 名 是 一 种 基于 
Internet 的 安全 认证 机 制 , 用 来 检测 文档 是 否 被 算 改 ,以 证 实 其 可 靠 性 。 当 信息 从 一 个 层次 
传递 到 另 一 个 层次 时 ,可 以 使 用 数字 签名 说 明 信 息 的 来 源 和 安全 性 。 这 样 ,接收 方 可 以 通过 
数字 签名 鉴别 其 来 源 和 安全 性 ,决定 信息 的 可 信任 程度 。 有 了 数字 签名 一 些 重要 的 电子 商 
务 活动 就 可 在 语义 网 上 安全 地 进行 。 其 实 不 仅 对 于 请 义 网 ,数字 签名 对 于 所 有 的 信息 交换 
系统 都 非常 重要 。 

1. Unicode 和 URI 层 

Unicode 和 URI 是 整个 语义 网 的 基础 ,其 中 Unicode 负责 资源 的 编码 ,URI 负责 资源 
的 标识 。 

Unicode 是 一 个 字符 集 , 该 字符 集中 所 有 的 字符 都 用 两 个 字 节 表示 ,可 以 表示 65 356 个 
字符 ,基本 上 包括 世界 上 所 有 语言 的 字符 。 语 义 网 的 最 终 目 标 是 构建 一 个 全 球 信 息 网 络 , 必 
然 涵盖 各 个 国家 和 民族 的 语言 ,采用 Unicode 作为 其 字符 编码 方案 ,可 从 根本 上 解决 跨 地 
区 、 跨 语言 字符 编码 的 格式 标准 问题 。 

URI 是 语义 网 的 根基 。 同 Internet 使 用 URL (Universal Resource Locator) 标识 
HTML 页 面 一 样 ,语义 网 同样 需要 一 个 类 似 的 规范 ,唯一 标识 网 络 资源 。 语 义 网 所 使 用 的 
URI 规范 在 RFC 2396 中 进行 了 详细 说 明 。 任 何 组 织 和 个 人 都 可 以 自由 定义 和 使 用 URI。 
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值得 注意 的 是 , URI 5 URL KIRK. URL 用 来 标识 网 络 路 径 , 可 以 通过 Internet 在 
URL 上 访问 到 相应 的 资源 ; 但 一 个 URI 标识 的 资源 可 能 根本 无 法 通过 网 络 访问 到 ,URI 
标识 仅仅 标识 一 个 资源 ,并 不 同时 包含 该 资源 的 访问 路 径 。URI 包含 URL, URL 是 URI 
的 超 集 ,URI 支持 语义 网 的 对 象 和 资源 的 精细 标识 ,使 精确 信息 检索 成 为 可 能 。 

2. XML, Name Space 和 XML Schema 

XML 已 经 成 为 数据 表示 和 数据 交换 的 事实 标准 ,提供 一 种 格式 自由 的 语法 ,用 户 可 以 
按照 自己 的 需要 创建 标记 集 , 并 使 用 这 些 标记 编写 XML 文档 。 正 因为 任何 人 都 可 以 自由 
定义 标记 ,所 以 不 可 避免 地 会 发 生 标记 同名 的 情况 。W3C 引入 命名 空间 (Namespaces) 机 
制 , 即 在 标记 前 面 加 上 URI 索引 ,以 消解 这 种 冲突 。XML Schema 提供 了 一 种 对 XML X 
档 进行 数据 校 验 的 机 制 ,基于 XML 语法 提供 多 种 数据 类 型 ,对 XML 标记 的 结构 和 使 用 方 
法 进行 了 规范 。XML Query 是 在 XML 基础 上 发 展 起 来 的 技术 标准 ,类 似 的 还 有 XPath 
等 ,使 用 这 些 技术 可 以 对 XML 文档 进行 数据 检索 ,提取 结 点 等 操作 。 

然而 , 随 着 XML 在 数据 交换 和 应 用 集成 等 领域 的 广泛 应 用 ,人 们 逐渐 发 现 ,XML 仅 适 
用 于 表示 数据 的 语法 , 却 不 能 涵盖 数据 的 语义 。 鉴 于 XML 受到 业界 的 普遍 支持 ,并 且 已 经 
具备 了 较 完备 的 技术 标准 ,在 语义 网 的 体系 框架 中 将 其 作为 数据 表示 的 语法 层 。 

3. RDF 和 RDF Schema 层 

XML 不 适 于 表达 数据 的 语义 ,因此 数据 的 语义 定义 和 互 操 作 需 要 由 更 高 一 层 完成 。 
因此 ,W3C 组 织 开发 了 一 种 新 的 语言 以 描述 Internet 的 资源 及 其 之 间 的 关系 , 即 资源 描述 
框架 (Resource Description Framework, RDF), RDF 采用 三 元 组 又 称 为 陈述 (Statement)， 
表示 互联 网 的 资源 、 属 性 和 值 。 三 元 组 由 主体 (Subject) ,谓词 (Predicate) 和 客体 (Object) 组 
成 ,分 别 对 应 陈述 中 的 资源 ,属性 和 值 。RDF 提供 了 一 套 标准 的 数据 语义 描述 规范 ,但 它 还 
需要 定义 描述 中 使 用 的 词汇 。RDF Schema(RDFS) 提 供 了 一 种 面向 计算 机 理解 的 词汇 定 
X ,提供 了 描述 类 和 属性 的 能 力 。RDFS 在 RDF 的 基础 上 引入 类 、 类 之 间 的 关系 、 属 性 之 间 
的 关系 以 及 属性 的 定义 域 与 值 域 等 。 如 同一 部 字典 ,计算 机 通过 它 可 以 理解 数据 的 含义 。 
RDFS 明显 区 别 于 对 象 模型 的 是 属性 独立 于 类 .一 个 属性 可 以 应 用 于 多 个 类 或 实例 。 

RDF Syntax 构建 了 一 套 完 整 的 语法 以 便于 计算 机 自动 分 析 和 处 理 , 包 括 三 种 常用 的 表 
示 方 法 , 即 图 形 、N3 和 XML。 其 中 ,图 形 表示 是 对 RDF 模型 的 直接 描述 ,可 以 直接 明了 地 
观察 RDF 数据 及 其 关系 ; N3 是 一 种 三 元 组 的 方式 ,通过 枚 举 RDF 模型 中 的 每 个 陈述 表述 
RDF 模型 ,最 易于 使 用 ,简明 易 懂 ; RDF/XML 将 RDF 以 XML 语法 描述 ,将 XML 的 解析 
和 解释 过 程 相 结合 。 这 样 ,RDF 在 帮助 解析 器 阅读 XML 的 同时 ,可 以 获取 XML 表达 的 语 
义 , 并 可 以 根据 其 关系 进行 推理 ,从 而 做 出 基于 语义 的 判断 。 但 是 RDF/XML 常常 因为 过 
于 复杂 而 难以 使 用 。 

该 层 用 于 描述 万 维 网 的 资源 及 其 类 型 ,为 Web 资源 描述 提供 一 种 通用 框架 和 实现 数据 
集成 的 元 数据 方案 。 最 底层 的 URI 标识 Web 的 对 象 ,RDF 和 RDFS 层 则 可 对 URI 标识 的 
对 象 进行 陈述 。 

4. 本 体 (Ontology) 层 

该 层 用 于 描述 各 种 资源 之 间 的 联系 ,本 体 揭 示 了 资源 本 身 及 资源 之 间 更 为 复杂 和 丰富 
的 语义 ,从 而 将 信息 的 结构 和 内 容 分 离 .对 信息 进行 完全 形式 化 的 描述 ,使 Web 信息 具有 计 
算 机 可 理解 的 语义 。 因 为 本 体 定 义 了 不 同 概念 间 的 关系 ,所 以 本 体 层 能 够 对 字典 (或 词汇 ) 


的 演化 提供 支持 。 

作为 语义 网 中 最 为 核心 的 一 层 , 本 体 层 在 RDF 和 RDFS 进行 基本 的 类 /属性 描述 的 基 
础 上 ,更 进一步 地 描述 本 体 以 及 它们 之 间 的 关系 。 这 一 层 具 有 专用 的 本 体 描述 语言 ,如 
SHOE(Simple HTML Ontology Language) , OIL COntology Inference Language), DAML 
(DARPA Agent Markup Language) 4 DAML--OIL 等 。RDF 也 是 一 种 简单 的 本 体 描述 
语言 ,但 其 描述 能 力 较 弱 ,需要 扩展 。OWL(Web Ontology Language) 是 W3C 推荐 的 本 体 
描述 语言 ,其 实现 较 多 地 参考 了 DAML 十 OIL 的 设计 思想 和 经 验 。 

5. 逻辑 (Logic) 层 

该 层 用 来 产生 规则 ,主要 提供 公理 和 推理 规则 ,为 智能 推理 提供 基础 。 

近年 来 , 随 着 研究 的 不 断 深入 ,描述 逻辑 (Description Logic,DL) 作 为 一 种 较为 成 熟 的 
知识 表示 方法 引入 ,对 于 OWL 规范 的 制定 起 到 了 一 定 的 指导 作用 。 最 近 , 研 究 人 员 已 经 开 
始 尝试 在 OWL 加 入 规则 形成 OWL 的 规则 语言 (OWL Rules Language: ORL), 以 更 好 地 
实现 自动 推理 。 

6. 证 明 (Proof) 层 

证 明 层 执行 逻辑 层 产 生 的 规则 ,主要 提供 认证 机 制 ,并 结合 信任 层 的 应 用 机 制 评 判 是 否 
能 够 信赖 给 定 的 证 明 。 

证 明 层 使 用 逻辑 层 定义 的 推理 规则 进行 逻辑 推理 ,得 出 某 种 结论 。 对 于 语义 网 的 用 户 
而 言 ,这 一 推理 过 程 应 该 是 建立 在 可 靠 的 数据 基础 上 ,应 该 是 公开 的 ,而 且 推理 得 到 的 结论 
也 应 该 是 可 验证 的 。 

7. 信任 (Trust) 层 

主要 提供 信任 机 制 ,以 保证 用 户 代理 (Agent) 在 Web 上 进行 个 性 化 服务 和 交互 更 安全 
np. 

在 语义 网 内 进行 推理 并 最 终 得 出 的 结论 应 该 是 可 以 信任 的 ,这 需要 满足 : 

(1) 可 以 信任 所 见 的 数据 , 即 上 下 文 ; 

(2) 可 以 信任 所 做 的 推理 过 程 。 

满足 上 述 两 点 , 才 可 以 信任 最 终 得 到 的 推理 结果 。 使 用 语义 网 的 RDF 模型 ,任何 人 都 
可 以 对 任何 资源 进行 描述 ,不 同 立场 的 人 对 相同 的 资源 可 能 会 做 出 完全 相反 的 描述 。 信 任 
层 负 责 为 应 用 程序 提供 一 种 机 制 , 以 决定 是 否 信 任 给 出 的 论证 。 信 任 层 的 建立 ,使 智能 代理 
在 网 络 上 实现 个 性 化 服务 ,以 及 彼此 间 的 自动 交互 具备 了 可 靠 性 和 安全 性 。 


12.1.3 元 数据 


元 数据 是 描述 数据 的 数据 ,是 对 万 维 网 信息 的 一 种 描述 方式 ,是 机 器 可 理解 的 信息 。 

元 数据 由 一 系列 属性 或 元 素 组 成 ,以 实现 查询 、 阅 读 、 交 换 和 共享 。 例 如 图 书馆 元 数 
据 一 一 图 书馆 目录 ,包括 一 系列 描述 书籍 和 书面 的 数据 ,如 作者 、 出 版 日 期 \ 出 版 社 和 书 名 等 
元 素 。 

元 数据 与 其 所 描述 的 资源 之 间 的 关联 方式 主要 有 两 种 : 

CD 元 素 包含 在 独立 于 该 资源 的 记录 中 ,如 图 书馆 目录 。 

(2) 数据 嵌 在 资源 本 身 。 
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Internet 中 元 数据 的 概念 非常 流行 ,其 重要 作用 在 于 : 

CD 组 织 和 管理 网 络 信息 ,挖掘 信息 资源 ,通过 元 数据 可 以 在 万 维 网 上 准确 地 识别 、 定 
位 和 访问 信息 。 

(2) 查询 所 需 信息 。 

(3) 组 织 和 维护 一 个 机 构 对 数据 的 投资 。 

(4) 建立 数据 目录 和 数据 交换 中 心 。 通 过 数据 目录 和 数据 交换 中 心 等 提供 的 元 数据 ， 
用 户 可 以 共享 ,维护 及 优化 数据 等 。 

(5) 提供 数据 转换 的 信息 。 用 户 在 获取 信息 的 同时 可 以 得 到 元 数据 ,通过 元 数据 ,可 理 
解 信 息 和 自身 信息 集成 在 一 起 ,进行 科学 分 析 和 决策 。 

元 数据 的 编写 是 有 标准 的 ,通常 不 同 领域 根据 不 同 的 需求 制定 一 种 或 多 种 标准 。 标 准 
的 制定 可 实现 数据 的 交换 和 共享 。 一 些 重要 的 元 数据 标准 包括 MARC(Machine Readable 
Cataloging, 机 器 可 读 编目 ) 和 Dublin Core 等 。 

(1) Dublin Core 

美国 在 线 计算 机 图 书 中 心 COnline Computer Library Center, OCLC) 从 用 户 的 角度 出 
发 ,创建 了 一 种 新 的 网 络 资源 描述 标准 或 格式 ,都 柏林 核 (Dublin Core,DC) 元 数据 标准 应 运 
而 生 。 

当前 ,DC 元 数据 集 包括 15 个 核心 元 素 , 分 别 是 : 

* TITLE 一 一 对 象 的 名 称 , 由 创建 者 或 出 版 商 给 出 。 

。 SUBJECT 一 一 对 象 所 涉及 的 主题 ,包括 资源 或 对 象 的 关键 字 。 

DESCRIPTION 一 一 资源 内 容 的 描述 。 

。 SOURCE 一 一 对 象 的 来 源 。 

* LANGUAGE 一 一 文字 内 容 采 用 的 语言 。 

* RELATION 一 一 和 其 他 对 象 的 关系 。 

。 COVERAGE 一 一 对 象 的 空间 位 置 和 时 间 持 续 性 特征 。 

。 CREATOR 一 一 资源 内 容 的 责任 人 。 

* PUBLISHER 一 一 能 获取 对 象 的 责任 代理 。 

* CONTRIBUTOR 一 一 主要 负责 对 象 文字 内 容 的 人 。 

* RIGHTS 一 一 资源 权限 管理 的 声明 。 

。 DATE 一 一 发 布 日 期 。 

。 TYPE 一 一 对 象 的 类 型 。 

。 FORMAT 一 一 对 象 的 数据 格式 。 

* IDENTIFIER 一 一 唯一 标识 对 象 的 字符 串 或 数字 ,如 URL 或 URI 

(2) HL7 

HL7(Health Level 7) 是 由 美国 国家 标准 局 授权 的 标准 开发 机 构 HL7 研发 的 一 个 专门 
用 于 医疗 卫生 机 构 及 医用 仪器 、 设 备 数据 传输 的 标准 。 

HL7 适用 于 医院 内 部 不 同 医疗 信息 系统 之 间 交 换 病例 资料 、 临 床 检验 结果 和 财务 信 
息 ,便于 医院 内 部 信息 的 交换 和 管理 。 同 时 ,HL7 也 适用 于 医院 与 医院 、 医 院 与 保险 公司 、 
医院 与 上 级 主管 部 门 之 间 大 量 信息 交换 的 需要 。 

HL7 可 应 用 于 多 种 操作 系统 和 硬件 环境 ,也 可 以 进行 多 个 应 用 系统 之 间 文 件 和 数据 的 


交换 ,所 有 不 同 平台 的 医院 信息 管理 系统 通过 HL7 都 可 以 顺利 交互 。 采 用 HL7 作为 标准 
的 HIS 和 医用 仪器 .设备 可 以 实现 无 缝 连接 和 医学 信息 的 无 障碍 交换 。 

HL7 的 应 用 不 仅 使 医院 内 部 不 同系 统 间 的 交互 大 大 简化 ,更 便于 各 医院 以 及 医院 与 其 
他 机 构 之 间 的 联系 。 

(3) IMS 

IMS 是 一 个 全 球 性 的 学 习 组 织 , 以 发 展 及 推广 开放 性 规范 (Open Specification) 为 主要 
任务 ,主要 在 发 展 和 推广 有 关 教 育 的 开放 规范 ,以 促进 在 线 分 布 式 的 学 习 活 动 。IMS 全 球 
学 习 联盟 有 两 大 目标 : 其 一 是 达成 分 布 式 学 习 环 境 下 应 用 系统 或 服务 的 互 操作 性 ,定义 、 发 
展 所 需 的 技术 规范 ; 其 二 是 协助 其 他 机 构 将 IMS 规范 纳入 产品 或 服务 中 。 

由 于 IMS 并 非 开 发 性 组 织 , 所 制定 的 规范 需要 由 正式 的 标准 制定 机 构 ( 如 IEEE 等 ) 进 
行 公开 、 公 正 的 讨论 和 审核 ,投票 通过 后 才能 成 为 正式 的 标准 。 目 前 ,IMS 开发 完成 的 规范 
分 别 是 IMS 学 习 资 源 元 数据 说 明 (IMS Learning Resource Metadata Specification) ,IMS 企 
业 说 明 (IMS Enterprise Specification) , IMS 学 习 者 信息 包装 说 明 (IMS. Learner Information 
Package Specification) 和 IMS 问题 与 测试 互 操 作 说 明 (IMS Question®.Interoperability 
Specification) 。 

实现 元 数据 的 技术 手段 是 XML 和 RDF。XML 从 数据 和 文档 的 底层 实现 格式 化 ,保证 
从 处 理 到 交换 的 一 致 性 ,有 利于 在 网 络 环境 下 采用 通用 的 搜索 引擎 等 工具 ,为 实现 广义 数字 
图 书馆 (虚拟 数字 图 书馆 ) 提 供 了 可 能 。 

由 于 不 同 领域 甚至 同一 领域 存在 多 个 元 数据 标准 , 当 在 不 同 元 数据 标准 描述 的 资源 体 
系 之 间 检 索 时 , 则 存在 元 数据 的 互 操作 性 问题 。 利 用 特定 的 转换 程序 对 不 同 的 元 数据 标准 
进行 转换 , 称 为 元 数据 映射 (Metadata Mapping/Crosswalking)。 目 前 出 现 了 大 量 的 转换 程 
序 , 实 现 各 种 元 数据 标准 之 间 的 转换 。 例 如 DC 与 USMARC, DC 与 EAD (Encoded 
Archival Description, 编码 档案 描述 )、DC 与 GILS (Government Information Locator 
Service, 政 府 信息 定位 服务 )、GILS 与 MARC TEI, Header 与 MARC, FGDC ( Federal 
Geographic Data Committee) 5; MARC 等 。 也 可 以 利用 一 种 中 间 格 式 对 多 种 元 数据 进行 转 
换 。 相 比 之 下 ,格式 映射 转换 准确 .效率 较 高 。 

元 数据 的 类 型 有 四 种 , 即 内 容 元 数据 ,管理 元 数据 、 负 和 载 信息 元 数据 和 参考 信息 元 数据 ， 
它们 从 不 同 的 维度 ,不 同 的 层次 描述 电子 文档 或 资源 。 其 中 : 

(1) 内 容 元 数据 一 一 描述 对 象 内 容 的 信息 。 

(2) 管理 元 数据 一 一 描述 与 电子 文档 相关 的 信息 。 

(3) 负载 信息 元 数据 一 一 提供 电子 文档 的 物理 属性 。 

(4) 参考 信息 元 数据 一 一 源 自 电 子 文档 中 的 超 链接 。 在 此 “链接 ”的 概念 扩展 到 更 一 般 
的 概念 ,用 来 表示 任何 万 维 网 信息 、 文 档 和 资源 的 参考 链接 。 


12.1.4 核心 技术 
语义 网 的 体系 结构 中 ,XML 层 、RDF 层 以 及 本 体 层 是 最 核心 的 ,它们 是 语义 网 知识 表 


示 的 基础 ,为 上 层 的 推理 和 验证 等 商定 了 基础 ,也 是 目前 发 展 较为 成 熟 的 三 种 技术 ,下 面 将 
分 别 简要 介绍 。 
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1. XML 

传统 的 Internet 以 HTML 格式 存储 和 组 织 分 布 式 的 文档 ,这 带 来 的 主要 问题 是 : 

。 任何 人 只 要 发 现 HTML 不 足以 满足 其 需求 时 ,就 简单 地 在 文档 中 增加 标签 ,结果 导 

致 大 量 、 非 标准 的 HTML 的 出 现 。 
* HTML 的 标签 主要 是 面向 显示 的 ,并 不 包含 语义 ,因此 很 难 让 机 器 抽取 内 容 以 及 自 
动 地 处 理 文档 。 

为 了 解决 上 述 问 题 ,W3C 开发 了 XML 标准 ,并 确定 XML 为 语义 网 底层 的 数据 交换 格 
x, XML 通过 制定 标准 容许 用 户 自 行 定 义 标签 ,并 通过 文档 类 型 定义 (Data Type 
Definition,DTD) 或 XML Schema 约束 这 些 标 签 的 内 部 结构 ,并 解决 了 不 同 应 用 之 间 命 名 
冲突 的 问题 。XML 成 功 地 实现 了 文档 的 内 容 与 表示 的 分 离 , 成 为 应 用 之 间 交 换 数据 的 最 
佳 选择 。 

XML 的 可 扩展 性 、 自 我 描述 性 及 良好 的 结构 定义 ,为 语义 网 提供 了 完美 的 底层 数据 交 
换 格式 ,并 通过 XML Schema 规定 交换 数据 的 数据 结构 。 然 而 XML 1 be 
签 提供 语义 解释 ,对 机 器 语义 理解 没有 太 大 帮助 。 因 此 ,基于 XML 构建 了 RDF 标准 , 实 
对 信息 资源 的 语义 描述 。 

2. 资源 描述 框架 语言 

Web 是 计算 机 可 读 的 ,但 不 是 计算 机 可 理解 的 ,因此 Web 信息 难以 实现 计算 机 自动 处 
理 。 解 决 这 一 难题 的 途径 是 采用 元 数据 索引 Web 信息 ,然后 使 用 资源 描述 框架 (Resource 
Description Framework. RDF) 描 述 元 数据 与 元 数据 之 间 的 关系 。RDF 是 处 理 元 数据 的 基 
础 ,可 在 应 用 程序 之 间 交 换 机 器 可 理解 的 Web 提供 了 可 互 操作 性 。RDF 的 应 用 广泛 ,如 采 
用 RDF 的 智能 主题 可 提高 机 构 之 间 知 识 共 享 和 交换 的 能 力 。 

RDF 定义 一 个 简单 的 数据 模型 ,通过 性 质 (Property) 和 值 (Value) 描 述 资 源 以 及 资源 
与 资源 之 间 的 关系 。 如 果 将 RDF 的 性 质 看 作 是 资源 的 属性 , 则 RDF 也 可 以 看 作 传统 的 
去 属性 , 值 过 模型 。 此 外 ,RDF 还 可 以 描述 资源 与 资源 之 间 的 关系 ,因此 RDF 类 似 于 一 
实体 关系 图 。 

RDF 的 表示 方法 有 三 种 , 即 图 示 、 模 型 和 三 元 组 。 在 RDF 模型 中 ,资源 以 资源 标识 逢 
表示 ,资源 标识 符 由 一 个 唯一 资源 标识 符 和 一 个 可 选 的 锚 (Anchor)ID 组 成 。 

RDF 提供 了 一 个 开放 的 表达 Web 资源 的 元 数据 描述 模型 ,是 由 一 系列 的 陈述 , 即 主 体 - 
谓词 -客体 三 元 组 组 成 。 它 可 以 表达 Web 上 可 标识 的 任何 资源 ,如 标题 ,作者 、Web 的 版 权 
和 注册 信息 .语言 .格式 和 条 目 等 。RDF Schema 是 一 个 描述 RDF 资源 的 属性 和 类 的 词汇 
表 , 提 供 了 关于 这 些 属性 和 类 的 层次 结构 的 语义 ,从 某 种 程度 上 拓展 了 这 种 资源 描述 的 能 
力 , 可 以 看 成 是 轻 量 级 的 Web 本 体 语言 。 

RDF 和 XML 的 主要 区 别 在 于 : 

OD XML 不 包含 语义 ,RDF 包含 语义 。 

判断 是 否 包含 语义 ,需要 知道 语义 的 含义 ,机 器 可 理解 的 语义 是 指 由 符号 表示 的 对 象 与 
对 象 之 间 的 关系 ; 而 语法 则 是 指 符号 与 符号 之 间 的 关系 。 

之 所 以 说 XML&XML Schema 不 包含 语义 ,是 指 它们 并 不 能 使 机 器 理解 对 象 与 对 象 之 
间 的 含义 ; 而 RDF&RDF Schema 之 所 以 包含 语义 ,是 指 它们 能 表达 标签 所 对 应 的 对 象 之 
间 的 含义 ,而且 包 含 了 谓词 逻辑 并 支持 推理 ,如 图 12. 2 所 示 。 


< rdf :Description rdf :about = 

"http://www. famouswriters. org/twain/mark"> 

< s:hasName > Mark Twain «/s:hasName > 

< s:hasWritten rdf:resource = "http://www. books. org/ ISBN0001047582">| 
</rdf :Description> 

< rdf :Description rdf :about = "http://www. books. org/ ISBN0001047582"> 
< s:title> The Adventures of Tom Sawyer </s:title> 

< rdf :type rdf :resource = "http://www. description. org/ schema # Book" 
</rdf :Description> 


12.2 RDF 示例 


如 图 12. 3 所 示 的 例子 表达 的 是 Mark Twain 写 了 The Adventures of Tom Sawyer 一 
书 , 即 在 二 者 之 间 建 立 了 “hasWritten” 的 关系 ,这 种 关系 也 可 以 在 RDFS 中 进行 描述 ,这 种 
关系 能 在 RDFS 与 其 他 词汇 建立 联系 (如 父子 关系 、 定 义 域 . 值 域 等 )。 

上 述 的 例子 以 XML 表示 ,如 图 12. 3 Bros 


<description> 
< hasNane > Mark Twain </hasName> 
< hasWritten> 
< description> 
X book > 
«title» The Adventures of Tom Sawyer </title >| 
«/book > 
«/description? 
</hasWritten> 
</description> 


12.3 XML 示例 


通过 上 述 结构 ,人 们 可 以 明显 地 看 出 其 中 的 关系 ,但 机 器 仍然 无 法 理解 Mark Twain 和 
The Adventures of Tom Sawyer 是 什么 关系 ,而 只 知道 它们 分 别 是 树 结 构 中 的 第 二 级 结 点 
和 第 五 级 结 点 。 

因此 ,RDF 用 来 描述 资源 (或 者 对 象 ) ,并 建立 它们 之 间 的 语义 关系 。 

(2) XML 的 结构 是 树 ,RDF 的 结构 是 图 。 

RDF 的 三 元 组 在 文件 中 出 现 的 顺序 是 随意 的 ,三 元 组 有 多 个 谓词 和 客体 时 ,其 在 陈述 
中 被 定义 的 顺序 也 是 随意 的 ; 而 XML 中 一 个 结 点 出 现 的 顺序 却 不 能 更 换 。 

(3) XML Schema 定义 的 是 XML 的 词汇 表 , 而 RDF Schema 定义 的 是 词汇 类 型 。 

XML Schema 定义 了 XML 中 的 词汇 及 其 在 树 状 结构 中 的 位 置 关系 ,而 RDF 的 词汇 集 
太 大 了 ,大 到 RDF Schema 无 法 描述 ,因此 RDF Schema 定义 的 是 RDF 中 的 词汇 类 型 ,并且 
定义 了 概念 间 的 语义 ,如 概念 的 父子 关系 .定义 域 及 作用 域 等 。 

然而 , 同 其 他 知识 表示 语言 相 比 RDF Schema 显得 过 于 简单 ,语义 表达 能 力 不 够 ,需要 
更 上 层 对 其 语义 解释 能 力 的 进一步 扩展 。 

3. 本 体 

本 体 是 支持 知识 共享 和 重用 的 形式 化 结构 ,将 信息 的 结构 和 内 容 分 离 ,实现 对 信息 进行 
完全 形式 化 的 描述 ,为 信息 提供 一 个 统一 的 共同 表达 的 语义 结构 。 
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本 体 的 主要 作用 是 : 

。 为 人 类 和 应 用 系统 提供 一 个 对 于 主题 的 共同 理解 。 

。 为 不 同 来 源 的 信息 合成 ,提供 一 个 共同 的 相关 领域 的 理解 。 

。 为 不 同 的 应 用 程序 之 间 共 享 信息 和 知识 ,描述 应 用 程序 的 领域 ,定义 术语 及 其 关系 。 

对 于 以 概念 的 共享 和 理解 为 核心 的 语义 网 ,本 体 提 供 了 语义 知识 的 明确 化 表示 方法 , 因 
此 本 体 在 语义 网 中 处 于 核心 支配 地 位 ,在 12. 2 节 中 将 详细 介绍 本 体 。 


12.1.5 开发 工具 一 一 Jena 


Jena 是 一 套 开 发 语义 网 应 用 的 Java API, 包 括 对 RDF、RDFS 和 OWL 描述 的 本 体 模型 
的 解析 、 创 建 和 串 行 化 等 ,SPARQL 语句 的 解析 ,转化 为 SQL 以 及 基于 规则 的 推理 引擎 。 

Jena 提供 了 读 取 创建 和 输出 模型 的 Java API。 其 主要 的 数据 结构 是 图 ,但 是 用 户 操 
作 主 要 还 是 在 模型 上 进行 。 基 本 的 方法 是 通过 ModelFactory 建立 模型 ,然后 通过 模型 创建 
资源 ,再 通过 资源 添加 属性 ,逐步 构成 一 个 图 。 

通过 model. listStatement() 方 法 可 以 得 到 所 有 Statement 的 游标 ,可 以 遍历 模型 中 所 
有 的 三 元 组 。 但 在 取出 三 元 组 各 部 分 时 需 注意 ,对 象 可 以 是 字符 也 可 以 是 资源 ,需要 测试 。 

RDF 图 中 的 一 个 结 点 或 者 本 体 中 的 一 个 资源 ,在 RDF +P A < rdf: Description rdf; 
about = $ (uri) >JF 4f uri 指出 了 资源 的 URI。 如 果 下 面 有 匿名 资源 ,或 者 说 图 中 有 空白 
结 点 则 用 二 $ (prediction). rdf: nodeid =" $ ( anonymousenodeid ) " >., 53 4h fi fili HH]. rdf: 
Description 描述 该 空 结 点 , 即 二 rdf: Description rdf: nodeid — " $ (anonymousenodeid) ">, 
当然 ,人 工 编写 时 通过 嵌 套 可 以 不 用 创建 匿名 资源 。 


12.1.6 Web 3.0 


Internet 经 历 了 翻天 覆 地 的 重大 变革 。 伴 随 着 从 Web 1.0 向 Web 2.0 的 过 渡 ,Web 3.0 
已 开始 逐渐 步 人 人 们 的 视野 。Web 2.0 虽然 只 是 互联 网 发 展 阶 段 的 过 渡 产 物 ,但 正 是 由 于 
Web 2.0, 让 人 们 可 以 更 多 地 参与 到 Internet, 特 别 是 在 内 容 上 的 创造 。 在 这 一 点 上 , Web 
2.0 是 具有 革命 性 意义 的 。 正 是 因为 更 多 的 人 参与 到 了 有 价值 的 创造 活动 ,那么 要 求 互 联 
网 价值 的 重新 分 配 将 是 一 种 趋势 ,因而 必然 催生 新 一 代 Internet 一 一 Web 3. 0。 

Web 3.0 开发 者 们 的 目标 是 建造 一 个 能 针对 简单 问题 给 出 合理 、 完 全 答复 的 系统 。 
Web 3. 0 标准 的 核心 是 : 

。 继承 Web 2.0 的 所 有 特性 。 如 以 用 户 为 中 心 ,用 户 创造 内 容 , 广 泛 采用 AJAX 技 
术 , 广 泛 采用 RSS 内 容 聚 合 ,表现 为 BLOG 大 行 其 道 ,Internet 上 涌现 大 量 的 个 人 原 
创 日 志 。 

。 帮助 用 户 实现 其 劳动 价值 。 目 前 的 Web 2. 0 几乎 都 是 用 户 免费 劳动 ,免费 生产 内 容 
娱 人 娱 已 。 用 户 很 难 通过 Web 2.0 网 站 把 自己 辛 辛 苦 苦 生产 的 内 容 兑换 成 真实 货 
ifi; Web 3.0 的 首要 任务 是 让 他 们 不 再 浪费 劳动 力 , 实 现 劳动 价值 。 

。 网 站 无 边界 ,遵守 Web 3.0 标准 的 网 站 可 以 方便 地 在 数据 、 功 能 上 实现 彼此 的 互通 、 
互动 。 未 来 的 Internet 是 合作 、 共 赢 ,资源 互补 、 互 促 的 Internet。 分 久 必 合 ,有 相关 


利益 的 网 站 会 联合 起 来 , 趋 于 一 体 化 。 一 个 强 有 力 的 方便 的 对 外 交互 的 标准 是 每 
个 Web 3.0 网 站 都 必须 实现 的 。 

。 具备 更 清晰 、 可 行 的 一 利 模式 。 现 在 的 Web 2.0 网 站 大 部 分 没有 清晰 可 行 的 一 利 模 
式 , 这 是 商业 网 站 的 致命 弱点 。 有 些 Web 2.0 网 站 有 一 些 广告 收入 ,但 是 规模 不 够 ， 
注定 会 被 淘汰 。 

。 文 字 不 仅 限于 Internet 应 用 ,这 是 Web 3.0 标准 的 外 延 ,可 以 应 用 到 其 他 非 互联 网 

行业 。 

Web 3.0 的 三 个 前 提 是 : 

。 博客 技术 为 代表 ,围绕 网 民 互动 及 个 性 化 体验 的 互联 网 应 用 技术 的 完善 和 发 展 。 

。 虚拟 货币 的 普及 ,以 及 虚拟 货币 的 兑换 成 为 现实 。 

。 大 家 对 网 络 财富 的 认同 ,以 及 网 络 财务 安全 的 解决 方案 。 

Web 3.0 与 Web 2.0 一 样 , 不 是 技术 的 创新 而 是 观念 的 创新 ,进而 引领 技术 的 发 展 和 
应 用 。Web 3.0 将 催生 新 的 王国 ,不 再 以 地 域 进行 划分 ,而 是 以 兴趣 .语言 .主题 职业、 专业 
进行 聚集 和 管理 的 王国 ,可 谓 是 “轮流 坐庄 ”, 每 个 用 户 都 有 机 会 打造 出 一 个 新 的 互联 网 王国 
而 成 为 一 个 国王 ,也 有 可 能 在 互联 网 王国 的 民主 竞选 中 成 为 “总 统 ”, 到 时 将 拥有 来 自 全 球 各 
个 角落 的 网 络 公民 。 

过 去 的 Web 1.0 采 用 超 链 接 解决 了 信息 孤岛 的 连接 问题 , Web 2.0 解决 了 网 络 发 言 权 
的 解放 问题 ,Web 3.0 则 是 要 解决 海量 信息 在 细 化 后 的 定向 搜索 与 获 利 机 制 问题 。 当 Web 
3.0 为 用 户 提供 了 更 好 的 提升 自我 的 整合 能 力 后 ,这 意味 着 能 够 更 好 地 成 为 一 个 围绕 用 户 
服务 的 整合 中 心 ,这 正 是 我 们 期 待 未 来 的 Web 3. 0 受到 用 户 欢 迎 的 原因 。 

Web 1. 0 被 Web 2.0 重 新 洗 牌 后 ,人 人 都 有 话语 权 , 但 是 谁 来 听 、 谁 来 买单 才 是 根本 。 
也 许 正 是 因为 还 不 涉及 利益 分 配 的 原因 ,Web 2.0 得 以 迅速 发 展 。 同 样 , 因 为 Web 2.0 还 
没有 形成 良性 的 商业 回报 机 制 , 所 以 一 个 能 解决 利益 分 配 ” 问 题 一 一 将 主要 利益 分 配给 最 
有 贡献 的 内 容 提 供 者 的 Web 3.0 便 应 运 而 生 。 

随 着 Internet 的 日 新 月 异 ,Web 3. 0 将 是 彻底 改变 人 类 生活 的 互联 网 形式 。Web 3.0 
使 所 有 网 民 不 再 受到 现 有 资源 的 限制 ,具有 更 加 平等 地 获得 财富 和 声誉 的 机 会 。 事 实 上 ,已 
经 有 了 Web 3.0, 只 不 过 是 了 解 不 多 ,如 电子 商务 和 在 线 游 戏 , 不 管 是 B2C 还 是 C2C 模式 ， 
网 民利 用 Internet 提供 的 平台 进行 交易 ,整个 过 程 中 他 们 通过 Internet 付出 了 劳动 并 收获 
了 财富 。 在 线 游戏 通过 积分 的 方式 ,角色 扮演 者 通过 攻 城 掠 寨 、 花 费 大 量 的 时 间 不 断 修炼 ， 
他 们 在 那里 可 以 获得 声誉 和 财富 ,而 这 个 财富 通过 一 定 的 方式 可 以 在 现实 中 兑换 , 正 所 谓 人 
生 如 同一 场 游戏 ,Internet 会 让 人 们 的 生活 变 得 更 像 游戏 一 样 。 当 前 的 论坛 也 提供 积分 ,但 
由 于 缺乏 个 性 ,不 会 成 为 未 来 的 主流 ,最 有 代表 性 的 博客 , 却 在 积分 方面 做 得 很 少 ,劳动 价值 
没有 得 到 体现 。 为 此 ,好 的 博 主将 另起炉灶 ,以 便 得 到 更 多 ,这 是 在 追求 一 种 更 加 均衡 的 分 
配方 式 。 

Web 3.0 究竟 能 够 做 些 什么 ? DWS Group 推出 其 第 一 个 Web 3. 0 的 应 用 智能 相册 
(Smart Albums) , 它 是 一 款 简单 易 用 的 图 片 管理 软件 , 集 相 册 分 类 、 图 片 标签 和 图 片 搜索 等 
功能 为 一 体 , 并 可 以 日 历 模式 展现 ,还 可 以 对 图 片 进 行 加 密 保存 等 。Web 3.0 在 医疗 领域 已 
有 应 用 , 据 调 查 美国 的 所 有 医学 测试 中 ,有 40% 是 因为 不 知道 病人 以 前 的 测试 结果 而 进行 
的 。 所 幸 的 是 ,在 电子 病例 领域 ,现在 出 现 了 WorldVista 的 开源 标准 ,这 个 由 VA 开发 的 基 
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于 Vista 的 标准 向 所 有 人 开放 ,能 够 形成 一 个 全 球 性 的 可 互 换 医 疗 信息 系统 。Google 目前 
已 完成 了 从 信息 制作 组织、 存储 检索, 发布、 翻译 和 服务 ,以 及 无 线 服 务 Google SMS 的 一 
整 条 Web 3. 0 产业 链 的 构建 。Web 3. 0 时 代 网 络 连接 速度 将 达到 10Gbps, 越 来 越 多 的 家 
庭 都 用 上 了 数据 传输 速率 达 2 一 3Gbps 的 连接 ,用 户 可 以 观看 电影 片花 等 多 媒体 内 容 , 为 
eBay、Salesforce. com 等 互联 网 巨头 开拓 了 新 的 市 场 。 可 见 , Web 3. 0 作为 一 种 新 的 理念 ， 
正 逐 步 融 入 我 们 的 生活 。 

很 多 Web 3. 0 的 尝试 已 经 开始 ,但 这 些 尝试 聚合 起 来 还 需要 一 个 漫长 的 过 程 , 现 在 的 
Web 3.0 如 同一 堆 碎 石 ,等 待 被 整理 为 一 条 畅通 的 公路 。 我 们 今天 描述 Web 3. 0, 就 如 同 当 
年 Internet 诞生 之 前 想象 Web 1.0 一 样 。 

无 论 如 何 , 我 们 已 经 奔驰 在 信息 高 速 公 路 上 ,大 家 需要 重新 认识 信息 的 本 质 。 现 在 要 做 
的 是 按照 信息 在 现实 中 存在 的 属性 和 信息 之 间 的 关系 结构 建立 公用 信息 标准 ,并 按照 这 个 
标准 搭建 公用 信息 平台 ,通过 不 断 地 完善 和 升级 ,最 终 实 现 Internet 的 真正 价值 。 


12.2 本 体 


本 体 是 近年 信息 科学 界 最 热门 的 词汇 之 一 。 在 各 种 信息 交互 和 集成 、 知 识 表 示 与 获取 
的 应 用 中 ,这 一 词汇 频频 出 现 ,本 体 到 底 是 什么 ? 


12.2.1 哲学 本 源 


本 体 的 概念 最 初 起 源 于 哲学 领域 ,并 在 很 长 一 段 时 期 都 是 哲学 研究 的 一 个 分 支 。 古 和 希 
腊 哲学 家 亚 里 十 多 德 定义 本 体 为 "对 世界 客观 存在 物 的 系统 的 描述 , 即 存在 论 ", 即 本 体 是 客 
观 存在 的 一 个 系统 的 解释 或 说 明 ,所 关心 的 是 客观 现实 的 抽象 本 质 。 为 研究 客观 世界 的 存 
在 问题 , 亚 卫士 多 德 . 莱 布 尼 茨 .康德 ,皮尔 斯 和 怀特 海德 等 哲学 家 广泛 地 讨论 了 如 何 运用 本 
体 对 现实 世界 进行 分 类 、 如 何 描述 其 中 的 物理 实体 .如 何 定义 客观 世界 的 抽象 以 及 空间 与 时 
间 的 关系 等 问题 。 虽 然 ,历史 上 对 本 体 的 思考 主要 是 从 哲学 和 逻辑 学 的 角度 进行 ,但 前 人 的 
研究 成 果 蕴 涵 了 很 多 如 何 组 织 现实 世界 知识 的 方法 ,这 为 本 体 被 信息 科学 所 借鉴 英 定 了 基 
础 。 逻 辑 在 信息 科学 中 占有 重要 地 位 ,但 人 们 认识 到 逻辑 没有 描述 具体 现实 世界 的 能 力 , 逮 
辑 中 的 存在 量词 符号 仅仅 能 声明 某 物 存在 ,但 逻辑 本 身 却 没 有 词汇 来 描述 到 底 存在 的 是 什 
么 ,本 体 由 此 被 引入 信息 科学 中 ,以 弥补 逻辑 表达 能 力 的 不 足 。 本 体 包 含 了 观察 与 推理 两 个 
范畴 。 观 察 提 供 现实 世界 的 知识 ,描述 知识 的 组 织 形 式 ; 推理 通过 虚拟 框架 浴 清 观察 的 意 
X ,描述 知识 的 语义 。 

20 世纪 90 年 代 , 信 息 科学 的 发 展 面临 着 种 种 新 难题 ,诸如 知识 表示 、 知 识 共享 和 复 用 
等 。 特 别 地 ,由 于 Internet 的 飞速 发 展 ,如 何 组 织 .管理 和 维护 海量 信息 并 为 用 户 提 供 有 效 
的 服务 成 为 一 项 重要 而 迫切 的 研究 课题 。 本 体 作为 一 种 能 在 语义 和 知识 层次 上 描述 信 
息 系 统 的 概念 模型 的 建 模 工具 .引起 了 国内 外 众多 研究 者 的 关注 ,并 在 计算 机 领域 得 到 
了 广泛 应 用 ,如 知识 工程 数字 图 书馆 、 软 件 复 用 信息 检索 和 Web 异 构 信息 的 处 理 和 语 
义 网 等 。 


12.2.2 定义 


Ontology 这 一 哲学 范畴 ,被 人 工 智能 赋予 了 新 的 定义 ,并 引入 到 信息 科学 。 然 而 信息 
科学 界 对 Ontology 的 理解 也 是 逐步 发 展 并 走向 成 熟 的 。1991 年 Neches 等 人 最 早 给 出 
Ontology 在 信息 科学 中 的 定义 是 给 出 构成 相关 领域 词汇 的 基本 术语 和 关系 ,以 及 利用 这 些 
术语 和 关系 构成 规定 这 些 词汇 外 延 规则 的 定义 。 后 来 随 着 研究 的 深入 ,在 信息 系统 、 知 识 系 
统 等 领域 对 Ontology 给 出 了 不 同 的 定义 ,如 1993 4E Gruber 定义 Ontology 为 “概念 模型 的 
明确 的 规范 说 明 ”; 1997 年 Borst 进一步 完善 为 “共享 概念 模型 的 形式 化 规范 说 明 ”。 
Studer 等 人 对 上 述 定义 进行 了 深入 研究 ,认为 Ontology 是 共享 概念 模型 的 明确 的 形式 化 规 
范 说 明 。 

Studer 等 人 的 本 体 定义 包含 四 层 含义 : 概念 模型 (Conceptualization) ,明确 (Explicit) 、 
形式 化 (Formal) 和 共享 (Share) 。 其 中 ,概念 模型 是 指 通过 抽象 出 客观 世界 中 一 些 现象 的 相 
关 概 念 得 到 的 模型 ,其 表示 的 含义 独立 于 具体 的 环境 状态 ; 明确 是 指 所 使 用 的 概念 及 使 用 
这 些 概念 的 约束 都 具有 明确 的 定义 ; 形式 化 是 指 Ontology 是 计算 机 可 读 的 ,也 是 计算 机 可 
处 理 的 ; 共享 是 指 Ontology 中 体现 的 是 共同 认可 的 知识 ,反映 的 是 相关 领域 中 公认 的 概念 
集 , 针 对 的 是 团体 而 非 个 体 。Ontology 的 目标 是 捕获 相关 领域 的 知识 ,提供 对 该 领域 知识 
的 共同 理解 ,确定 该 领域 内 共同 认可 的 词汇 ,并 从 不 同 层次 的 形式 化 模式 上 给 出 这 些 词 汇 
(术语 ) 和 词汇 之 间 相互 关系 的 明确 定义 。 尽 管 定 义 有 很 多 不 同 的 方式 ,但 就 内 涵 而 言 ,不 同 
研究 者 对 于 Ontology 的 认识 是 统一 的 ,都 将 其 看 作 和 领域 (领域 的 范围 可 以 是 特定 应 用 ,也 可 
以 是 更 广 的 范围 ) 内 部 不 同 主体 (人 、 机 器 、 软 件 系统 等 ) 之 间 进 行 交 流 ( 对 话 、 互 操作 LESE 
等 ) 的 一 种 语义 基础 , 即 由 Ontology 提供 一 种 共识 ,而 且 Ontology 提供 的 这 种 共识 更 主要 
的 是 为 机 器 服务 ,机 器 并 不 能 像 人 类 一 样 理解 自然 语言 表达 的 语义 ,目前 的 计算 机 也 只 能 把 
文本 看 成 字符 串 进 行 处 理 。 

到 底 什 么 是 Ontology? 学 术 界 对 此 并 没有 达成 共识 ,引用 较 多 的 是 Gruber 的 定义 , 即 
Ontology 是 一 个 共享 的 概念 化 规范 , 而 概念 化 是 指 某 个 领域 中 的 概念 及 其 相互 关系 ,是 我 
们 希望 描述 的 世界 的 一 个 抽象 的 简化 的 视图 。 

Ontology 与 通常 所 谓 的 词典 的 区 别 在 于 : 

。 词典 是 由 人 阅读 的 ,Ontology 必须 方便 机 器 阅读 。 

。 词典 注重 概念 本 身 的 描述 ,Ontology 既 注重 概念 本 身 的 描述 ,又 注重 概念 间 之 间 关 

系 的 表示 。 
。 词典 通常 以 自然 语言 描述 ,Ontology 可 以 用 其 他 符号 语言 描述 。 
经 过 多 年 的 努力 ,研究 人 员 已 经 构建 了 一 些 有 影响 力 的 Ontology。 


12.2.3 建 模 
本 体 是 一 种 组 织 知识 的 艺术 。 为 研究 如 何 利用 本 体 组 织 知识 ,Perez 等 人 采用 了 分 类 


法 ,并 归纳 出 五 个 基本 建 模 元 语 : 类 (Classes) 或 概念 (Concept) .关系 (Relation) 函数 
(Function) ,公理 (Axiom) 和 实例 (Instance)。 类 或 概念 表示 对 象 的 集合 ; 关系 表示 领域 中 
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概念 之 间 的 交互 作用 ; 函数 是 一 类 特殊 的 关系 ,该 关系 的 前 m — 1 个 元 素 可 以 唯一 决定 第 
n 420355 公理 代表 永 真 断言 ; 实例 代表 元 素 ,就 语义 而 言 表示 的 就 是 对 象 。 关 系 在 本 体 中 
非常 重要 ,从 语义 的 角度 ,基本 的 关系 有 四 种 : part-of、kind-of、instance-of 和 attribute-of。 
part-of 表示 概念 之 间 部 分 与 整体 的 关系 ; kind-of 表示 概念 之 间 的 继承 关系 ,类似 于 面向 对 
象 中 父子 类 之 间 的 关系 ; instance-of 表示 概念 的 实例 与 概念 之 间 的 关系 ,类 似 于 面向 对 象 
中 对 象 和 类 之 间 的 关系 ; attribute-of 表示 某 个 概念 是 另 一 个 概念 的 属性 。 实 际 建 模 中 , 概 
念 之 间 的 关系 不 限于 上 述 的 四 种 基本 关系 ,可 以 根据 领域 的 具体 情况 定义 相应 的 关系 。 
Ontology 正 是 通过 这 些 建 模 元 语 组 织 现实 世界 的 知识 。 


12.2.4 分 类 


目前 ,广泛 使 用 的 本 体 包 括 WordNet, FrameNet, GUM 和 SENSUS 等 。WordNet 是 
基于 心理 语言 规则 的 英文 词典 ,以 在 特定 的 上 下 文 环境 中 可 互 换 的 同义词 的 集合 为 单位 组 
织 信 息 ; FrameNet, 英 文 词典 采用 称 为 Frame Semantics 的 描述 框架 ,提供 强大 的 语义 分 析 
能 力 , 目 前 发 展 为 FrameNet Il; GUM 面向 自然 语言 处 理 ,支持 多 语种 处 理 , 包 括 基 本 概念 
及 独立 于 各 种 具体 语言 的 概念 组 织 方式 ; SENSUS 面向 自然 语言 处 理 , 为 机 器 翻译 提供 概 
念 结构 ,包括 7 万 多 个 概念 。 

对 于 Ontology 的 分 类 则 有 着 不 同 的 标准 。 常 用 的 本 体 划分 准则 是 详细 程度 和 领域 依 
赖 程度 。 详 细 程 度 是 为 了 描述 或 刻画 建 模 对 象 的 程度 ,高 的 称 作 参 考 本 体 (Reference 
Ontology) , 低 的 称 作 共 享 本 体 (Share Ontology)。 根 据 依赖 程度 可 以 划分 为 四 类 : 

。 顶级 (Top-level) 本 体 描述 的 是 最 普遍 的 概念 及 概念 之 间 的 关系 ,如 空间 时间、 事件 

和 行为 等 ,与 具体 应 用 无 关 , 其 他 本 体 均 为 其 特例 。 

* 领域 本 体 (Domain Ontology) 描 述 的 是 特定 领域 中 的 概念 和 概念 之 间 的 关系 。 

。 任务 本 体 (Task Ontology) 描 述 的 是 特定 任务 或 行为 中 的 概念 及 概念 之 间 的 关系 。 

* 应 用 本 体 (Application Ontology) 描 述 的 是 依赖 于 特定 领域 和 任务 的 概念 和 概念 之 

间 的 关系 。 


12.2.5 构建 方法 


如 何 构 建 Ontology? Gruber 提出 了 五 条 准则 , 即 ; 

CD 清晰 性 (Clarity) 。 本 体 必 须 有 效 地 说 明 所 定义 术语 的 含义 ,定义 应 该 是 客观 的 ,与 
背景 独立 的 , 当 定 义 可 以 用 逻辑 公理 表达 时 ,应 该 是 形式 化 的 ,定义 应 该 尽 可 能 地 完整 ,所 有 
定义 应 该 用 自然 语言 说 明 。 

(2) 一 致 性 (Coherence) 。 本 体 应 该 是 一 致 的 ,换言之 ,应 该 支持 与 其 定义 相 一 致 的 推 
理 , 它 所 定义 的 公理 以 及 用 自然 语言 进行 说 明 的 文档 都 应 该 具有 一 致 性 。 

G) 可 扩展 性 (Extendibility)。 本 体 应 该 为 可 预料 到 的 任务 提供 概念 基础 ,应 该 支持 在 
已 有 概念 的 基础 上 定义 新 的 术语 ,以 满足 特殊 需求 ,而 无 须 修改 已 有 的 概念 定义 。 

(4) 编码 偏好 程度 最 小 (Minimal encoding bias)。 概 念 的 描述 不 应 该 依赖 于 某 一 种 特 
殊 的 符号 层 表 示 方 法 ,因为 实际 系统 可 能 采用 不 同 的 知识 表示 方法 。 


(5) 约定 最 小 (Minimal ontological commitment) 。 本 体 约 定 应 该 最 小 ,只 要 能 够 满足 
特定 的 知识 共享 需求 即 可 ,这 可 以 通过 定义 约束 最 弱 的 公理 以 及 只 定义 通信 所 需 的 词汇 来 
保证 。 

对 于 本 体 构建 方法 ,大 多 数 研究 者 都 倾向 于 采用 一 种 近似 软件 工程 的 方法 。 本 体 构 到 
一 般 分 为 若干 步骤 ,是 一 个 不 断 迭 代 、 逐 步 精炼 的 过 程 ,主要 步骤 包括 : 

(1) 确定 Ontology 的 目的 和 使 用 范围 。 

(2) Ontology 捕获 : 即 确定 关键 的 概念 和 关系 ,给 出 精确 定义 ,并 确定 其 他 相关 的 
术语 。 

(3) Ontology 编码 : 选择 合适 的 语言 表达 概念 和 术语 。 

(4) 已 有 Ontology 的 集成 : 尽 可 能 重用 和 修改 已 有 Ontology. 

(5) 评估 : 根据 需求 描述 ,能力 询问 (Competency Question) 等 对 Ontology 以 及 软件 环 
境 、 相 关 文 档 进行 评价 。 

由 于 本 体 到 目前 为 止 仍 处 于 相对 不 成 熟 的 阶段 ,每 一 工程 都 有 自己 独立 的 方法 。 最 常 
用 的 构建 方法 主要 是 骨架 法 .IDEF-5 法 和 循环 获取 三 种 ,已 得 到 业界 的 普遍 认可 ,下 面 将 分 
别 介绍 。 

1. 骨架 法 

Mike Ushold 和 Micheal Gruninger 提出 的 骨架 法 (Skeletal Methodology) 在 企业 本 体 
基础 上 ,是 相关 商业 企业 间 术 语 和 定义 的 集合 。 该 方法 只 提供 开发 本 体 的 指导 方针 。 在 构 
建 过 程 中 虽 没 有 提出 特有 的 评价 方法 ,但 是 认为 评价 方法 应 该 是 其 中 的 一 个 环节 ,具体 步 又 
WTF: 

CD 确定 目的 和 范围 (Identify Purpose and Scope) 

在 此 阶段 需要 确定 建立 本 体 的 目的 、 本 体 应 用 的 范围 以 及 用 户 群 等 。 

(2) 建立 本 体 (Building the Ontology) 

这 一 阶段 包括 本 体 获 取 、 本 体 编码 和 现 有 本 体 的 集成 。 

(3) 评价 (Evaluation) 

没有 提出 自己 的 评价 方法 ,只 是 认为 评价 应 该 是 整个 方法 论 的 一 个 环节 。 

(4) 文档 化 (Documentation) 

包括 本 体 中 定义 的 主要 概念 元 本 体 等 。 目 前 很 多 知识 库 和 本 体 缺少 文档 也 是 一 种 知 
识 共享 的 障碍 , 某 些 编辑 器 可 以 自动 生成 这 些 文档 。 

2. IDEF-5 方法 

IDEF(ICAM Definition Method) 的 概念 是 在 结构 化 分 析 方法 的 基础 上 发 展 而 来 的 ， 
1981 年 美国 空军 公布 的 ICAM CIntegrated Computer Aided Manufacturing) 工 程 首次 使 用 
了 名 为 IDEF 的 方法 。 到 目前 为 止 ,已 经 发 展 成 为 一 个 系列 。IDEF-5 通过 两 种 语言 ( 即 图 
表 语 言 和 细 化 说 明 语 言 ) 获 取 某 个 领域 的 本 体 论 ,提供 过 程 流 图 和 对 象 状 态 转 移 网 图 
(OSTN) 这 两 种 图 表 获 取 、 管 理 和 显示 过 程 。 

IDEF-5 提出 的 本 体 构建 方法 包括 五 种 活动 ,分 别 是 : 

* 组 织 和 范围 (Organizing and Scoping) 

确定 本 体 建设 项 目的 目标 、 观 点 和 语 境 , 并 为 组 员 分 配角 色 。 


fi 
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。 数据 收集 (Data Collection) 

收集 本 体 建设 需要 的 原始 数据 。 

。 数据 分 析 (Data Analysis) 

分 析 数 据 , 为 抽取 本 体 做 准备 。 

。 初始 化 的 本 体 建 立 (Initial Ontology Development) 

从 收集 的 数据 中 建立 一 个 初步 的 本 体 。 

。 本 体 的 精炼 与 确认 (Ontology Refinement and Validation? 

完成 本 体 建 设 过 程 。 

3. 循环 获取 

Alexander Maedche 等 人 提出 的 循环 获取 (Cyclic Acquisition Process) 方 法 是 一 种 环 状 
结构 ,如 图 12.4 所 示 。 


半 结 构 化 信息 自然 i 
(如 领域 专业 词典 ) 


格言 文本 


12.4 循环 获取 过 程 


具体 过 程 如 下 : 

(1) 环 状 的 起 点 是 一 个 通用 的 核心 本 体 的 选择 。 

任何 大 型 的 通用 本 体 ( 如 Cyc, Dahlgren 的 本 体 ) ,词汇 语义 网 (如 WordNet, EuroWordNet, 
HowNet) 或 者 领域 相关 的 本 体 都 可 以 作为 这 个 过 程 的 开始 。 选 定 基 础 本 体 后 ,用 户 必须 确 
定 用 于 抽取 领域 相关 实体 的 文本 。 

(2) 从 选择 的 文本 中 获取 领域 相关 的 概念 ,并 建立 概念 之 间 的 分 类 关系 。 

O 除去 领域 无 关 的 概念 ,只 留 下 和 领域 相关 的 。 这 时 ,建立 了 目标 本 体 的 概念 
结构 。 
(4) 从 基础 本 体 中 继承 一 些 关 系 , 其 他 的 关系 需要 通过 学 习 的 方法 从 文本 中 抽取 。 

(5) 对 获得 的 领域 相关 的 本 体 进行 评价 ,还 可 以 重复 上 述 过 程 。 

构建 本 体 需 要 一 种 表示 语言 作为 基本 的 形式 化 工具 。 原 则 上 ,本 体能 够 用 各 种 各 样 的 
语言 实现 ,如 非 形式 化 的 、 半 形式 化 的 或 形式 化 的 ,并 无 强制 性 的 规范 。 目 前 ,有 两 种 逻辑 常 
用 作 本 体 的 形式 化 工具 : 其 一 是 谓词 演算 及 其 变种 ; 其 二 是 框架 逻辑 。 其 中 ,谓词 演算 及 
其 变种 较为 常见 。 如 M.R.Genesereth 和 R. E. Fikes 提出 的 KIFCKnowledge Interchange 
Format) 是 一 种 基于 扩展 的 谓词 演算 的 形式 语言 ,包含 类 、 子 类 、 属 性 、 值 关系 和 公理 等 原 


语 ; Ontolingua 本 体 就 是 使 用 Frame Ontology, 其 语法 基于 LISP; CYCL 是 CYC 的 知识 
表示 语言 ,类 似 于 一 阶 谓词 演算 ; XOLCXML-Based Ontology Exchange Language) 是 一 种 
本 体 交 换 语 言 ,提供 本 体 定义 格式 的 交换 ,基于 XML 语法 ; OIL (Ontology Inference 
Language) 是 基于 框架 的 表示 语言 ,目前 还 在 不 断 完善 中 。 


12.2.6 描述 语言 


下 面 以 OWL(Web Ontology Language, 网 络 本 体 语 言 ) 为 例 介 绍 本 体 描述 语言 的 功能 特性 。 

OWL 是 W3C 推荐 的 语义 互联 网 中 本 体 描述 语言 的 标准 。W3C 总 结 了 之 前 的 DAML 十 
OIL、RDF 和 RDFS 等 几 种 语言 的 开发 经 验 , 在 2004 年 2 月 正式 推出 OWL。OWL 是 语义 
网 发 展 过 程 的 一 个 重要 里 程 碑 ,已 经 经 过 广泛 的 讨论 并 得 到 比较 一 致 的 认可 。OWL 既 保 
持 了 对 DAML-ONTVOILVRDFS 的 兼容 性 ,又 保证 了 更 强大 的 语义 表达 能 力 ,还 保证 了 描 
述 逻 辑 的 可 判定 推理 等 。W3C 提出 的 本 体 语 言 栈 如 图 12. 5 所 示 。 


OWL 
DAML-Service 
| | DAML-Rules 
OIL DAML*OIL 
| xot. | suos | oML RDF(S) 
| XML 


图 12.5 W3C 提出 的 本 体 语 言 栈 


RDFS 提出 类 的 概念 ,定义 类 和 性 质 , 可 以 描述 其 他 类 和 性 质 , 然 而 其 表达 能 力 非常 有 
限 ,RDFS 局 限于 子 类 分 层 和 属性 分 层 , 以 及 属性 的 定义 域 和 值 域 限定 ,难以 提供 推理 方面 
的 支持 。W3C 确定 的 语义 网 用 例 所 需 的 表达 能 力 要 比 RDF 和 RDFS 强 得 多 ,OWL 由 美国 
和 欧洲 等 研究 机 构 联合 提出 的 DAML 十 OIL 语言 发 展 而 来 ,具有 良好 定义 的 语法 ,高 率 的 
推理 支持 ,以 及 充分 灵活 的 语义 表达 能 力 , 从 根本 上 解决 了 RDF 和 RDES 表达 语义 的 局 限 
性 ,成 为 W3C 推荐 的 描述 本 体 语言 的 标准 。 

OWL 和 RDF/RDFS 中 一 些 建 模 原 语 的 关系 如 图 12.6 所 示 。 


rdfs: Resource 


rdfs: Class rdf: Property 


owl: Class owl: ObjectProperty owl: DatatypeProperty 


12.6 OWL 和 RDF/RDFS 建 模 原 语 的 关系 


RDFS 的 局 限 性 如 下 : 
* 属性 的 局 部 辖 域 。rdfs:range 为 一 个 属性 (例如 吃 ) 定 义 的 值 域 是 相对 于 所 有 类 的 ， 
无 法 定义 只 适用 于 某 些 类 的 值 域 限制 (例如 无 法 定义 牛 只 吃 植物 ,而 其 他 动物 还 可 
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以 吃 肉 ) 。 

类 不 相交 性 。 有 时 需要 表示 类 的 不 相交 性 ,例如 男性 和 女性 不 相交 。 但 RDFS 只 能 
规定 类 之 间 的 子 类 关系 ,如 女性 是 人 类 的 子 类 。 

类 的 布尔 组 合 。 有 时 希望 通过 对 已 有 类 的 并 、 交 或 补 等 操作 ,组 合 产生 新 的 类 ,例如 
定义 人 类 为 男性 和 女性 的 不 相交 的 并 ,RDFS 则 不 容许 这 样 的 定义 。 

基数 约束 。 有 时 需要 对 一 个 属性 不 同 取 值 的 个 数 加 以 约束 。 如 一 个 人 恰好 有 一 
个 父亲 和 母亲 ,一 门 课程 至 少 有 一 个 授课 者 讲授 ,RDFS 同样 不 能 表达 这 样 的 
Za. 

属性 的 特殊 性 质 。 有 时 需要 规定 属性 具有 传递 性 (如 大 于 ) ,唯一 性 (如 母亲 ) ,或 定 
义 属 性 的 逆 属 性 (如 吃 和 被 吃 ) 。 


OWL 针对 RDFS 的 局 限 进行 了 如 下 扩展 : 


。 OWL 中 使 用 owl:import 可 以 导入 其 他 本 体 , 该 语句 具有 传递 性 。 

* 类 元 素 一 一 owl: Class 进行 类 定义 ; owl: disjointWith 表示 类 的 不 相交 ; owl: 
equivalentClass 表示 类 相等 。 此 外 ,还 包含 两 个 预定 义 类 owl: Thing 是 所 有 类 的 父 
X; owl; Nothing 是 空 类 ,是 所 有 类 的 子 类 。 

属性 元 素 一 一 有 两 种 属性 , 即 owl : ObjectProperty 和 owl: DatatypeProperty。 前 者 
将 对 象 关联 起 来 , 常 表示 为 动作 ; 后 者 将 对 象 和 属性 值 关联 起 来 ,owl 没有 预定 义 的 
数据 类 型 ,使 用 XMLS 的 数据 类 型 。 可 以 定义 属性 的 逆 属 性 和 等 价 属性 ,分 别 使 用 
owl:inverseOf 和 owl:equivalentProperty。 

属性 约束 一 一 通过 owl: Restriction, owl: allValuesFrom/owl: hasValue, owl: 
someValuesFrom 规定 owl:onProperty 指定 属性 。 分 别 表 示 该 property 的 取 值 必 
须 “* 全 部 /至 少 有 一 个 ”来 自 某 范围 。owl:allValuesFrom 和 owl:hasValue 的 区 别 在 
于 前 者 指定 的 是 类 或 者 一 个 数据 范围 ,而 后 者 指定 的 是 一 个 个 体 或 者 一 个 值 。 

类 的 交 、 并 、 补 一 一 owl:intersectionOf、owl: unionOf ,owl : complementOf, 

类 的 枚 举 一 一 owl:one of. 

类 的 实例 一 一 同 RDF, 

基数 约束 一 一 ow]: Restriction、owl:minCardinality owl: maxCardinality。 

特殊 性 质 一 一 传递 性 owl:TransitiveProperty; 对 称 性 owl; SymmetricProperty; PA 
数 性 ow1:FunctionalProperty( 如 规定 同一 个 对 象 的 该 属性 不 可 以 取 同 一 个 值 , 如 年 
龄 .身高 等 ); ERRE owl:InverseFunctionalProperty, 即 规定 不 同 对 象 的 该 属性 
不 可 以 取 相 同 的 值 ,如 身份 证 号 。 


OWL 和 其 他 知识 表示 语言 表达 能 力 的 比较 如 表 12. 1 所 示 。 


表 12.1 OWL 和 其 他 知识 表示 语言 表达 能 力 的 比较 


比较 项 目 XML DTD |XML Schema| RDF Schema OIL DAML 二 OIL| OWL 
有 界 列表 M v M 
基数 约束 v v M v V 
类 表达 式 M M v v 
数据 类 型 M M v v v 
已 定义 的 类 v v v 


2 

zl 
» 
E 


DAML 二 OIL 
v 


Q 
z 


比较 项 目 XML DTD |XML Schema| RDF Schema L 


枚 举 v v 
等 价 
可 扩展 性 v 
形式 化 语义 
继承 v 
推理 

本 地 化 约束 
条 件 约束 
实例 化 ~ 


e. 
& | 和 


| 
| 


12.2.7 实例 


目前 ,一 些 具有 代表 性 的 本 体 包括 WordNet,CYC,Sensus 和 HowNet 等 。 其 中 : 

WordNet 是 一 个 基于 语言 心理 学 原理 的 英语 词汇 数据 库 , 可 用 作词 典 、 推 理 词典 和 分 
类 词汇 数据 库 。 

CYC 是 世界 上 最 大 、 最 完善 的 常识 知识 库 。 

Sensus 是 一 个 主要 用 于 机 器 翻译 的 本 体 实例 。 

值得 一 提 的 是 董 振东 先生 积 多 年 的 心血 构建 的 HowNet( 知 网 ) 是 目前 国内 一 个 不 可 多 
得 的 共享 本 体 。 下 面 主 要 从 基本 概念 、 知 识 结 构 和 概念 关系 三 个 方面 介绍 HowNet。 

1999 年 年 初 ,中 国 中 文 信息 学 会 常务 理事 董 振东 先生 在 Internet 上 公布 了 自己 的 研究 
成 果 一 一 HowNet。HowNet 是 描述 概念 与 概念 之 间 的 关系 ,以 及 概念 的 属性 与 属性 之 间 
的 关系 的 知识 库 , 支 持 中 、 英 文 两 种 语言 ,具有 独特 的 知识 表示 方法 。 近 些 年 ,HowNet 的 出 
现 使 人 们 对 汉语 语义 的 研究 又 盛行 起 来 。 

HowNet 把 客观 世界 看 作 是 由 很 多 概念 构成 的 。 概 念 与 概念 之 间 有 各 种 各 样 的 关系 ， 
这 些 关 系 相互 交织 构成 了 一 个 网 。 这 种 以 网 状 的 结构 组 织 概念 的 方式 ,使 得 简单 的 概念 描 
述 可 以 表达 丰富 的 概念 关系 ,这 是 HowNet 区 别 于 其 他 语义 词典 的 本 质 特征 。 

HowNet 是 一 个 常识 知识 库 , 用 KDML(Knowledge Dictionary Mark-up Language) 语 
言 作为 其 知识 表示 的 语言 ,然而 由 于 这 种 描述 知识 的 方法 并 没有 得 到 广大 应 用 的 支持 , 且 对 
于 HowNet 作为 知识 库 本 身 , 没 能 够 提供 一 套 完好 的 添加 知识 实例 的 方法 。 因 此 ,以 
HowNet 原始 系统 作为 知识 库 , 距 离 实际 的 应 用 还 有 一 段 差距 ,但 作为 一 种 语言 学 资源 ， 
HowNet 可 以 发 挥 它 的 积极 作用 。 所 以 我 们 更 愿意 把 HowNet 理解 为 一 种 定义 完好 的 半 
结构 化 语义 词典 进行 利用 。 

HowNet 有 几 个 重要 的 概念 ,如 概念 ,属性 、 义 原 和 动态 角色 等 。 其 中 ,预定 义 了 一 千 多 
个 义 原 , 用 来 描述 概念 的 静态 特征 ,而 动态 角色 用 来 激活 概念 的 静态 特征 ,使 概念 与 概念 之 
间 以 及 概念 间 的 属性 之 间 动 态 联系 。 其 中 : 
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(1) 概念 

即 词语 的 意义 ,而 词语 是 概念 的 形式 。 同 一 个 概念 可 能 有 不 同 的 词语 形式 ,包括 不 同 语 
言 的 。 如 “医生 ”和 “doctor” 表 达 的 是 同一 个 概念 。 没 有 意义 的 字 也 就 没有 概念 ,如 “ 葡 ”。 
HowNet 中 有 22 574 个 概念 ,由 中 、 英 两 种 语言 的 各 70 000 多 词语 表示 ,总 记录 数 是 
150 100。 虽 然 没有 一 个 记录 是 重复 的 ,但 两 种 语言 对 应 的 词 请 是 重复 的 。HowNet 中 概念 
用 一 个 英语 和 汉语 词语 的 组 合 来 确定 概念 的 唯一 性 。 

(2) 属性 

即 概念 的 特征 。 一 个 实体 所 具有 的 属性 是 多 元 的 , 正 是 属性 的 多 元 化 体现 了 关系 的 多 
元 化 。 例 如 * 纸 > 有 颜色 这 一 属性 , 正 是 这 一 属性 造成 它 可 能 与 “ 笔 "“ 写 "和 "* 画 ?发 生 关 系 。 
在 日 常生 活 中 人 们 还 会 用 * 纸 ”来 点 火 , 这 是 由 它 另 外 一 个 属性 * 易 燃 性 ?造成 的 ,这 时 颜色 的 
属性 变 得 无 关 了 。 

(3) 义 原 

又 称 为 义 素 , 是 意义 的 最 小 单位 。HowNet 中 所 有 概念 定义 的 基本 成 分 是 义 原 。 义 原 
分 为 五 类 ,每 个 类 别 的 义 原 形成 一 个 树 状 的 层次 结构 。HowNet 中 ,概念 的 主要 特征 即 第 一 
个 属性 ,由 位 于 主要 特征 文件 中 的 义 原 描述 ,如 实体 表 、 事 件 表 、 属 性 值 表 和 属性 表 等 文件 中 
的 义 原 。 因 此 ,HowNet 中 概念 的 上 下 位 关系 ,由 其 第 一 义 原 的 层次 结构 体现 ,而 概念 的 其 
他 属性 可 由 任意 义 原 描述 ,包括 次 要 特征 义 原 .数量 表 和 数量 值 表 等 。 

(4) 动态 角色 

用 于 描述 概念 的 动态 特征 ,如 图 12.7 所 示 的 医生 是 医治 的 施 事 者 ,病人 是 医治 的 受 事 
者 。 动 态 角 色 常 用 于 标注 复杂 的 概念 ,格式 为 “动态 角色 一 义 原 ”, 其 中 的 动态 角色 可 以 为 
“agent/ 施 事 者 "“patient/ 受 事 者 "“instrument/ 工 具 ?”“LocationFin/ 终 处 所 ”等 。 

不 同 于 WordNet, EuroWordNet 等 国外 盛行 已 久 的 语义 词典 ,HowNet 除了 能 很 好 地 
支持 中 文 , 另 一 个 特点 是 面向 计算 机 的 网 状 的 知识 系统 ,这 是 它 与 其 他 树 状 的 词汇 词典 的 本 
质 不 同 。HowNet 的 网 状 知 识 体系 如 图 12.7 所 示 。 


人 
Y 
医生 一 十 施 事 
医院 一 十 场所 
4 
Y "zzi » 属性 
诊所 - it 
RR 
| 强健 一 一 体罚 


图 12.7 HowNet 的 网 状 知识 体系 结构 


如 图 12.7 所 示 的 网 状 知识 结构 在 KDML 中 的 表达 方式 如 图 12. 8 所 示 。 


DEF = (hunan| A :donain - {medical| 医 },Hostof = (Occupation| Wir), (doctor| 医治 :agent = (—))) 

患者 : 

DEF = (human| 人 :domain = {medical | Æ}, {SufferFrom| f $ : experiencer = {一 }}，{doctor | 医治 :patient = 
(m 

医院 : 

DEF = {InstitutePlace| 场 所 :{doctor| 医 治 : location = {~}, content = {disease| 疾 病 }}, domain = {medical | 
医 }} 

病历 : 

DEF = {document | 文书 :{record| 记 录 :content = {disease| 疾 病 },LocationFin = { 一 }}，domain = {medical| 医 }} 


DEF = (Health| 健康 : host = {AnimalHuman| 动 物 }} 
多 病 : 
DEF = {unhealthy| 不 健 } 


DEF = {disease| 疾 病 } 
药 : 


DEF = {medicine| 药 物 } 


图 12.8 HowNet 概念 的 定义 


其 中 ,每 个 概念 的 定义 项 都 由 义 原 和 动态 角色 描述 。 如 content、 LocationFin、domain 
等 为 动态 角色 ,而 出 现在 定义 项 中 由 双语 标注 的 是 义 原 。 在 HowNet 中 , 义 原 通过 一 个 树 
状 的 层次 结构 构成 上 下 位 关系 ,也 具有 同 概 念 一 样 的 定义 格式 ,如 图 12.9 所 示 。 


| {HealthValue| 健 康 值 } 
| ---- {healthy| 康 健 } 
| -------- {unhealthy| 不 健 } 


disease| 疾 病 : 
DEF = {phenomena| 现 象 : {doctor| 医 治 :content = {~}} , 
(SufferFrom|fÉjB: content = {~}}, 
RelateTo = (nedicine| £j #y ) (Health| fit E) (HealthValue| fi B ffi ) , 
domain- {medical| 医 }} 
medicine| 药 物 : 
DEF = (artifact| A T. 9] : (doctor | & if : instrument = { 一 }},RelateTo = (disease| i), 
domain = {medical| 医 }{chemistry| 化 学 }} 


图 12.9 HowNet 的 义 原 层次 结构 和 定义 


通过 这 样 的 定义 方式 ,使 概念 的 关系 图 容易 被 计算 机 所 理解 ,让 计算 机 通过 理解 概念 的 
语义 作为 其 提供 智能 服务 的 基础 。 

概念 关系 是 HowNet 的 灵魂 , 正 是 因为 有 了 丰富 的 概念 关系 ,HowNet 才 包 含 丰 富 的 
语义 。HowNet 描述 概念 之 间 多 种 类 型 的 关系 ,有 显 性 的 关系 ,也 有 隐 性 的 关系 ,还 有 组 合 
的 关系 。 

显 性 关系 通常 通过 动态 角色 体现 如 下 : 

。 部 件 -整体 关系 ,通过 动态 角色 PartOf 描述 。 如 同 火车 有 部 件 -整体 关系 的 词语 包括 
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餐车 .车 而、 豪华 车 厢 、 客 车 车厢、 旅客 车 厢 、 究 车 . 卧 车 `, 火 车头、 蒸汽 机 车 和 机 车 。 
属性 -宿主 关系 ,通过 动态 角色 HostOf 描述 。 

材料 -成 品 关系 ,通过 动态 角色 MaterialOf 描述 。 

施 事 - 事 件 关 系 ,通过 动态 角色 Agent 描述 。 

受 事 -事件 关系 ,通过 动态 角色 Patient 描述 。 

工具 -事件 关系 ,通过 动态 角色 Instrument 描述 。 

场所 -事件 关系 ,通过 动态 角色 Location, LocationIni, LocationFin 等 描述 。 

时 间 - 事 件 关系 ,通过 动态 角色 Time、TimeAfter、TimeBefore 等 描述 。 

。 值 -属性 关系 ,无须 动态 角色 ,直接 标注 。 

HowNet 定义 了 百 余 个 动态 角色 与 特征 表示 概念 的 动态 关系 。 

HowNet 的 许多 关系 隐 含 在 特征 文件 和 概念 词典 描述 中 ,通过 一 些 特殊 的 结构 和 位 置 
信息 体现 出 来 ,如 概念 间 的 上 下 位 关系 通过 定义 项 中 第 一 个 义 原 的 层次 结构 体现 出 来 ,而 对 
义 关 系 则 通过 对 义 关 系 中 的 两 两 特征 对 体现 出 来 。 

HowNet 的 隐 性 关系 包括 : 

。 上 下 位 关系 一 一 即 概念 间 的 父子 关系 ,如 “苹果 ”是 “水 果 ” 的 下 位 概念 ,“ 水 果 ” 是 “ 植 

物 ” 的 下 位 概念 。 

。 同 义 关系 一 一 指 的 是 不 同 的 词语 形式 表达 同一 种 概念 。 如 “西红柿 *" 和 “番茄 ”是 同 
义 词 , 而 “西红柿 "和 “ 红 莫 "不 是 同义词 ,只 是 同类 词 。HowNet 中 ,通过 中 、 英 文 词 
形 以 及 定义 项 体现 同 义 关系 ,如 表 12. 2 所 示 。 

表 12.2. HowNet 概念 定义 的 实例 


Id 中 文 词 形 英文 词 形 E X 
{ part| 部 件 : PartPosition— {embryo| 胚 }， 
089505 西红柿 tomato whole- {vegetable | 2&3 ) , 


{eat| IZ : patient— (—))) 

( part| 部 件 : PartPosition— (embryo| lif) , 
025550 番茄 tomato whole ( vegetable | fi 3€ ) , 

{eat| IZ : patient= {~} }} 

{ part| 部 件 : PartPosition= {embryo| lif) . 
036732 Ze yam whole— ( vegetable | Zi 3E ) « 

(eat| IZ : patient—(—))) 


。 对 义 关 系 一 一 HowNet 把 反 义 之 间 没 有 灰 度 的 称 之 为 对 义 , 一 般 由 事件 体现 ,如 是 / 
非 、 买 / 卖 . 教 /学 等 。 对 义 关 系 是 根据 HowNet 的 对 义 词组 提取 。 
* EU & — HowNet 把 反 义 之 间 有 灰 度 的 称 为 反 义 , 一 般 由 属性 值 体现 ,如 大 / 
小 、 美 / 丑 等 等 。 反 义 关系 是 根据 HowNet 的 反义词 组 提取 。 
除了 上 述 关系 外 ,HowNet 还 可 以 表达 一 些 复杂 的 组 合 关系 。 所 谓 的 复杂 概念 是 以 事 
件 为 中 心 , 除 了 事件 中 心 本 身 以 外 还 有 一 个 或 一 个 以 上 的 动态 角色 。 
在 对 HowNet 的 研究 中 ,只 需 从 我 们 能 利用 到 的 角度 提取 其 中 一 部 分 ,将 其 转换 为 对 
应 的 OWL 形式 ,使 其 从 一 个 半 结 构 化 的 语义 词典 转换 为 一 个 高 层 本 体 。 如 果 需 要 ,还 可 以 
对 原始 文件 进行 更 深层 次 的 研究 ,并 提取 出 很 多 其 他 有 价值 的 关系 。 
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例如 ,采用 Protégé 本 体 编辑 工具 ,Protégé 是 斯 坦 福 大 学 开发 的 本 体 编辑 与 知识 获取 
工具 , 带 有 OWL 插件 的 Protégé 可 以 支持 OWL 格式 的 本 体 编辑 与 输出 ,并 通过 Racer 工具 进 
行 本 体 的 一 致 性 检查 和 推理 。 将 HowNet 的 概念 、 义 原 ,动态 角色 以 及 词性 ,分 别 映射 到 OWL 
的 类 、 对 象 属性 以 及 数据 类 型 属性 ,并 通过 类 的 交 、 并 ,约束 等 性 质 完 成 复杂 概念 的 定义 。 

下 面 说 明 这 些 术语 在 Protégé 以 及 OWL 语言 中 是 如 何 表 示 的 。 

(1) 义 原 的 表示 

如 图 12. 10 所 示 , 将 义 原 的 实体 类 事件 类 、 属 性 类 、 属 性 值 类 以 及 第 二 特征 类 的 层次 结 
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(2) 概念 的 表示 
以 “医院 ”为 例 , 医院 的 定义 项 为 DEF = (InstitutePlace | 场所 : (doctor | 医治 : 
location= {~} ,content 二 {disease| 疾 病 }}, domain 二 {medical| 医 }} ,其 在 Protégé 中 的 表 
示 如 图 12.11 所 示 ,对 应 的 OWL 表示 如 图 12. 12 所 示 。 
IQ nsttuteplace 
Oword 


I DOMAIN onty Medical 
|© inverse ot LOCATION only (Doctor and (CONTENT only Disease)) 


图 12. 11 HowNet 中 的 概念 “医院 ”在 Protégé 中 的 表示 


<owl:Class rdf:ID= "hospital" 
<rdfs:subClassOf > 
<owl:Restriction> 
< owl:onProperty rdf:resource = " # inverse_of_LOCRTION"/> 
<owl:allValuesFrom> 
<owl:Class> 
< owl:intersectionOf rdf:parseType = "Collection"> 
<owl:Restriction> 
< owl:onProperty rdf:resource = " # CONTENT" /> 
<owl:allValuesFrom rdf:resource = "#Disease"/> 
</owl:Restriction> 
<owl:Class rdf:about = " # Doctor" /> 
«/owl : intersectionOf > 
«/owl:Class? 
«/owl :allValuesFrom» 
«/owl:Restriction?» 
X/rdfs: subClassOf > 
< rdfs:subClassOf > 
«X owl:Restriction? 
« oul :onProperty rdf:resource = " # DOMAIN" /» 
« owl:allValuesFrom rdf:resource = " # Medical"/» 
«/owl : Restriction» 
«/xdfs:subClassOf > 
< rdfs:subClassOf rdf : resource = " # InstitutePlace"/» 
X rdfs:subClassOf rdf : resource = " # Word" /> 
< rdfs:comment rdf:datatype = "&xsd; string"> 医 院 </rdfs:comment > 
</owl:Class> 


图 12.12 HowNet 中 的 概念 “医院 ”的 OWL 表示 


对 于 概念 的 表示 ,还 有 一 种 较为 简化 的 方法 , 即 对 于 类 似 于 location 一 { 一 } 的 定义 项 中 
带 有 “一 ”的 概念 ,表示 动态 角色 对 应 的 是 本 身 , 可 以 通过 将 该 概念 添加 到 对 应 的 义 原 的 定义 
中 ,如 可 将 “hospital” 的 "inverse_ of LOCATION? 属性 “doctor| 医 治 ?转化 为 “doctor| 医 治 ” 
的 “LOCATION? 属 性 ,因为 “inverse_of LOCATION? 同 “LOCATION” 具 有 相对 的 意义 。 

(3) 动态 角色 的 表示 

HowNet 中 动态 角色 的 表示 如 图 12. 13 所 示 。 若 应 用 前 面 提 及 的 简化 的 概念 表示 方 
法 ,可 以 不 必 设 置 动 态 角 色 的 逆 属 性 。 


Ill Object properties 


I EventRole 


IB MODIFIER 

a SCOPE 

IE RELATETO 

Il CONTENT e» inverse of CONTENT 
IE PATENT e inverse of PATIENT 
a HOST 

IB MANNER 

Il ACCORDINGTO 
Ill AGENT + invers: 
Ill CONCERNING 
IB TIMEFIN 

Ill COEVENT 

Il MATERIAL 

IM STATEFIN 

a CAUSE 

IM OFPART 

Ill LOCATIONTHRU 
国 LOCATIONINI 

(Ni DEGREE 

Ill LOCATION + inverse of LOCATION 


FIM 


12.13  HowNet 动态 角色 定义 为 owl: ObjectProperty 


(4) 词性 以 及 语言 的 表示 
如 图 12. 14 所 示 。 


(instance of owt DatatypeProperty) 


D Annotations. 


— |m 


Domain u 


owtThing 


12.14 HowNet 词性 表示 为 owl: DatatypeProperty 
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